RubricHub
Et storskala rubrikkdatasett med ~110 000 instanser for trening av åpne genereringsmodeller. Bruker et automatisert grov-til-fin-rammeverk for å lage svært diskriminerende evalueringskriterier, noe som gjør at Qwen3-14B kan overgå GPT-5 på HealthBench.
$A^3$-Benk
En ny målestokk som evaluerer hukommelsesdrevne mekanismer i vitenskapelig resonnement. Den måler hvordan modeller aktiverer «ankere» (kjerneformler) og «tiltrekkere» (skjemaer/eksempler) under slutning—og går utover bare å sjekke endelige svar.