RubricHub Un ensemble de données de rubriques à grande échelle avec ~110k instances pour entraîner des modèles de génération ouverts. Utilise un cadre automatisé de grossier à fin pour créer des critères d'évaluation hautement discriminants, permettant à Qwen3-14B de surpasser GPT-5 sur HealthBench.