RubricHub
Un dataset di rubriche su larga scala con ~110k istanze per l'addestramento di modelli di generazione aperta. Utilizza un framework automatizzato da grossolano a fine per creare criteri di valutazione altamente discriminativi, consentendo a Qwen3-14B di superare GPT-5 su HealthBench.
$A^3$-Bench
Un nuovo benchmark che valuta i meccanismi guidati dalla memoria nel ragionamento scientifico. Misura come i modelli attivano gli "ancoraggi" (formule fondamentali) e gli "attrattori" (schemi/esempi) durante l'inferenza, andando oltre il semplice controllo delle risposte finali.