روبريك هاب مجموعة بيانات معايير واسعة النطاق تحتوي على ~110 ألف نسخة لتدريب نماذج التوليد المفتوحة. يستخدم إطار عمل آلي من الخشن إلى الدقيق لإنشاء معايير تقييم تمييزية للغاية، مما يمكن Qwen3-14B من تجاوز GPT-5 على HealthBench.