RubricHub Một tập dữ liệu rubric quy mô lớn với khoảng 110k trường hợp để đào tạo các mô hình sinh mở. Sử dụng một khung tự động từ thô đến tinh để tạo ra các tiêu chí đánh giá phân biệt cao, cho phép Qwen3-14B vượt qua GPT-5 trên HealthBench.