RubricHub
Um conjunto de dados de rubricas em grande escala com ~110k instâncias para treinar modelos de geração de respostas abertas. Utiliza uma estrutura automatizada de grosso para fino para criar critérios de avaliação altamente discriminativos, permitindo que o Qwen3-14B supere o GPT-5 no HealthBench.
$A^3$-Bench
Um novo benchmark que avalia mecanismos impulsionados por memória no raciocínio científico. Mede como os modelos ativam "âncoras" (fórmulas principais) e "atratores" (esquemas/exemplos) durante a inferência—indo além de apenas verificar respostas finais.