RubricHub Un set de date de rubrică la scară largă cu ~110k instanțe pentru antrenarea modelelor de generare deschisă. Folosește un cadru automatizat de la grosieră la fină pentru a crea criterii de evaluare extrem de discriminatorii, permițând Qwen3-14B să depășească GPT-5 pe HealthBench.