RubricHub
Açık uçlu üretim modellerini eğitmek için ~110k örnek içeren büyük ölçekli bir rubrik veri seti. Otomatik bir kaba ve ince çerçeve kullanarak yüksek ayrımcı değerlendirme kriterleri oluşturur ve Qwen3-14B'nin HealthBench'te GPT-5'i geçmesini sağlar.
$A^3$-Kulübü
Bilimsel akıl yürütmede hafıza odaklı mekanizmaları değerlendiren yeni bir kıyaslama. Modellerin çıkarım sırasında "çapaları" (çekirdek formülleri) ve "çekicileri" (şema/örnekleri) nasıl aktive ettiğini ölçüyor—sadece nihai cevapları kontrol etmekten öteye gidiyor.