RubricHub Ein umfangreicher Rubrik-Datensatz mit ~110k Instanzen zum Trainieren von Modellen für offene Generierung. Verwendet ein automatisiertes Grob-zu-Finest-Rahmenwerk, um hochgradig diskriminative Bewertungskriterien zu erstellen, die es Qwen3-14B ermöglichen, GPT-5 auf HealthBench zu übertreffen.