GDPval-AA 排行榜更新:GLM-4.7 成為新的開放權重領導者,ELO 為 1224,而 MiniMax M2.1 在 M2 上有顯著改進。 GDPval-AA 在專用終端環境和網絡訪問下,對準備演示文稿、分析等現實知識工作任務的模型輸出進行比較。然後,將工作輸出彼此比較,並通過自動化管道進行評估,以生成比賽和 ELO 分數。 ➤ @Zai_org 的 GLM-4.7 獲得 ELO 1224,僅次於 GPT-5.1(高),與 GLM-4.6 相比增加了約 170 分。這意味著我們預期 GLM-4.7 的輸出在對比 GLM-4.6 時有 73% 的機會勝出。 ➤ @MiniMax__AI 也在 GDPval-AA 上顯示出改進,推出的 M2.1 將 ELO 提高了 +56 分,相較於之前的 M2 模型,但仍位於 GLM-4.6 和 GPT-5.1 Codex(高)之間。
GDPval-AA 排行榜: GLM-4.7 無伺服器 API 提供者的人工分析比較: MiniMax M2.1 無伺服器 API 提供者的人工分析比較:
2.75K