热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
GDPval-AA 排行榜更新:GLM-4.7 以 1224 的 ELO 成为新的开放权重领导者,而 MiniMax M2.1 在 M2 的基础上取得了显著改进。
GDPval-AA 在专用终端环境和网络访问的基础上,比较模型在准备演示文稿、分析等现实知识工作任务上的输出。然后将工作输出相互比较,并通过自动化管道进行评估,以生成匹配和 ELO 分数。
➤ @Zai_org 的 GLM-4.7 达到 1224 的 ELO,紧随其后的是 GPT-5.1(高),与 GLM-4.6 相比增加了约 170 分。这意味着我们预计 GLM-4.7 的输出在面对面比较时将以 73% 的概率击败 GLM-4.6。
➤ @MiniMax__AI 也在 GDPval-AA 上展示了他们的 M2.1 发布所带来的改进,ELO 比之前的 M2 模型提高了 +56 分,但仍处于 GLM-4.6 和 GPT-5.1 Codex(高)之间。

GDPval-AA 排行榜:
GLM-4.7 无服务器 API 提供商的人工分析比较:
MiniMax M2.1 无服务器 API 提供商的人工分析比较:
2.72K
热门
排行
收藏
