GDPval-AA liderlik tablosu güncellemesi: GLM-4.7, 1224 ELO ile yeni açık ağırlık lideri ve MiniMax M2.1, M2'ye göre anlamlı iyileştirmeler sağlıyor GDPval-AA, sunum hazırlamak, analiz ve daha fazlası gibi gerçekçi bilgi çalışmaları için model çıktılarını özel bir terminal ortamı ve web erişimi kullanarak karşılaştırır. Çalışma çıktıları birbirleriyle karşılaştırılır ve otomatik bir ürün hattı ile değerlendirilir; eşleşmeler ve ELO puanları oluşturulur. ➤ @Zai_org'den GLM-4.7, 1224 ELO elde eder, GPT-5.1'in hemen arkasında (yüksek) ve GLM-4.6'ya kıyasla ~170 puan artış sağlar. Bu da GLM-4.7'den çıkan çıktıların baş başa karşılaştırıldığında %73 oranında GLM-4.6'yı geçmesini beklediğimiz anlamına geliyor. ➤ @MiniMax__AI, M2.1 sürümünü çıkararak GDPval-AA'da da iyileşmeler gösterdi; önceki M2 modeline kıyasla ELO'yu +56 puan artırdı ancak hâlâ GLM-4.6 ile GPT-5.1 Codex (yüksek) arasında kaldı.
GDPval-AA Liderlik Tablosu: GLM-4.7 sunucusuz API sağlayıcılarının Yapay Analizi karşılaştırması: MiniMax M2.1 sunucusuz API sağlayıcılarının Yapay Analiz karşılaştırması:
2,89K