RubricHub Um conjunto de dados de rubricas em grande escala com ~110k instâncias para treinar modelos de geração de respostas abertas. Utiliza uma estrutura automatizada de grosso para fino para criar critérios de avaliação altamente discriminativos, permitindo que o Qwen3-14B supere o GPT-5 no HealthBench.