Pembaruan papan peringkat GDPval-AA: GLM-4.7 adalah pemimpin bobot terbuka baru dengan ELO 1224, dan MiniMax M2.1 membuat peningkatan yang berarti dibandingkan M2 GDPval-AA membandingkan output model pada tugas kerja pengetahuan yang realistis seperti menyiapkan presentasi, analisis, dan lainnya menggunakan lingkungan terminal khusus dan akses web. Hasil kerja kemudian dibandingkan satu sama lain dan dinilai dengan alur otomatis untuk menghasilkan kecocokan dan skor ELO. GLM-4.7 dari @Zai_org mencapai ELO 1224, ditempatkan tepat di belakang GPT-5.1 (tinggi) dan peningkatan ~170 poin dibandingkan dengan GLM-4.6. Ini berarti bahwa kami mengharapkan output dari GLM-4.7 untuk mengalahkan GLM-4.6 73% dari waktu jika dibandingkan dengan head to head. ➤ @MiniMax__AI juga menunjukkan peningkatan pada GDPval-AA dengan rilis M2.1 mereka, meningkatkan ELO sebesar +56 poin dibandingkan dengan model M2 sebelumnya tetapi masih berada di antara GLM-4.6 dan GPT-5.1 Codex (tinggi).
Papan Peringkat GDPval-AA: Perbandingan Analisis Buatan dari penyedia API nirserver GLM-4.7: Perbandingan Analisis Buatan dari penyedia API nirserver MiniMax M2.1:
2,89K