RubricHub
Een grootschalige rubric dataset met ~110k instanties voor het trainen van modellen voor open-eindige generatie. Maakt gebruik van een geautomatiseerd grof-tot-fijn raamwerk om zeer onderscheidende evaluatiecriteria te creëren, waardoor Qwen3-14B GPT-5 op HealthBench kan overtreffen.
$A^3$-Bench
Een nieuwe benchmark die geheugen-gedreven mechanismen in wetenschappelijk redeneren evalueert. Het meet hoe modellen "ankers" (kernformules) en "attractoren" (schema's/voorbeelden) activeren tijdens inferentie—en gaat verder dan alleen het controleren van eindantwoorden.