熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
GDPval-AA 排行榜更新:GLM-4.7 成為新的開放權重領導者,ELO 為 1224,而 MiniMax M2.1 在 M2 上有顯著改進。
GDPval-AA 在專用終端環境和網絡訪問下,對準備演示文稿、分析等現實知識工作任務的模型輸出進行比較。然後,將工作輸出彼此比較,並通過自動化管道進行評估,以生成比賽和 ELO 分數。
➤ @Zai_org 的 GLM-4.7 獲得 ELO 1224,僅次於 GPT-5.1(高),與 GLM-4.6 相比增加了約 170 分。這意味著我們預期 GLM-4.7 的輸出在對比 GLM-4.6 時有 73% 的機會勝出。
➤ @MiniMax__AI 也在 GDPval-AA 上顯示出改進,推出的 M2.1 將 ELO 提高了 +56 分,相較於之前的 M2 模型,但仍位於 GLM-4.6 和 GPT-5.1 Codex(高)之間。

GDPval-AA 排行榜:
GLM-4.7 無伺服器 API 提供者的人工分析比較:
MiniMax M2.1 無伺服器 API 提供者的人工分析比較:
2.75K
熱門
排行
收藏
