一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

GDPval-AA 排行榜更新：GLM-4.7 成為新的開放權重領導者，ELO 為 1224，而 MiniMax M2.1 在 M2 上有顯著改進。 GDPval-AA 在專用終端環境和網絡訪問下，對準備演示文稿、分析等現實知識工作任務的模型輸出進行比較。然後，將工作輸出彼此比較，並通過自動化管道進行評估，以生成比賽和 ELO 分數。 ➤ @Zai_org 的 GLM-4.7 獲得 ELO 1224，僅次於 GPT-5.1（高），與 GLM-4.6 相比增加了約 170 分。這意味著我們預期 GLM-4.7 的輸出在對比 GLM-4.6 時有 73% 的機會勝出。 ➤ @MiniMax__AI 也在 GDPval-AA 上顯示出改進，推出的 M2.1 將 ELO 提高了 +56 分，相較於之前的 M2 模型，但仍位於 GLM-4.6 和 GPT-5.1 Codex（高）之間。

GDPval-AA 排行榜： GLM-4.7 無伺服器 API 提供者的人工分析比較： MiniMax M2.1 無伺服器 API 提供者的人工分析比較：

2.75K