RubricHub
Ein umfangreicher Rubrik-Datensatz mit ~110k Instanzen zum Trainieren von Modellen für offene Generierung. Verwendet ein automatisiertes Grob-zu-Finest-Rahmenwerk, um hochgradig diskriminative Bewertungskriterien zu erstellen, die es Qwen3-14B ermöglichen, GPT-5 auf HealthBench zu übertreffen.
$A^3$-Bench
Ein neuer Benchmark, der speichergetriebene Mechanismen im wissenschaftlichen Denken bewertet. Er misst, wie Modelle "Anker" (Kernformeln) und "Attraktoren" (Schemas/Beispiele) während der Inferenz aktivieren – und geht über die bloße Überprüfung der Endergebnisse hinaus.