RubricHub Laajamittainen arviointikriteeriaineisto, jossa on ~110 000 instanssia avoimien generointimallien kouluttamiseen. Käyttää automatisoitua karkeasta hienoon -viitekehystä luodakseen erittäin syrjivät arviointikriteerit, joiden avulla Qwen3-14B voi ohittaa GPT-5:n HealthBenchissä.