RubricHub Un dataset di rubriche su larga scala con ~110k istanze per l'addestramento di modelli di generazione aperta. Utilizza un framework automatizzato da grossolano a fine per creare criteri di valutazione altamente discriminativi, consentendo a Qwen3-14B di superare GPT-5 su HealthBench.