RubricHub
Большой набор данных рубрик с ~110 тыс. экземпляров для обучения моделей открытой генерации. Использует автоматизированную схему от грубого к тонкому для создания высокодискриминационных критериев оценки, позволяя Qwen3-14B превзойти GPT-5 на HealthBench.
$A^3$-Bench
Новый бенчмарк, который оценивает механизмы, основанные на памяти, в научном рассуждении. Он измеряет, как модели активируют "якоря" (основные формулы) и "аттракторы" (схемы/примеры) во время вывода — выходя за рамки простого проверки окончательных ответов.