RubricHub Duża baza danych rubryk z ~110 tys. przypadków do trenowania modeli generacji otwartych. Wykorzystuje zautomatyzowany framework od ogółu do szczegółu do tworzenia wysoce dyskryminacyjnych kryteriów oceny, co pozwala Qwen3-14B przewyższyć GPT-5 w HealthBench.