RubricHub
Laajamittainen arviointikriteeriaineisto, jossa on ~110 000 instanssia avoimien generointimallien kouluttamiseen. Käyttää automatisoitua karkeasta hienoon -viitekehystä luodakseen erittäin syrjivät arviointikriteerit, joiden avulla Qwen3-14B voi ohittaa GPT-5:n HealthBenchissä.
$A^3$-penkki
Uusi vertailukohta, joka arvioi muistiin perustuvia mekanismeja tieteellisessä päättelyssä. Se mittaa, miten mallit aktivoivat "ankkureita" (ydinkaavoja) ja "vetovoimatekijöitä" (skeemoja/esimerkkejä) päättelyssä—menee pidemmälle kuin pelkkä lopullisten vastausten tarkistaminen.