GDPval-AAリーダーボードアップデート:GLM-4.7が新たなオープンウェイトリーダーとなり、ELOは1224となり、MiniMax M2.1はM2に比べて有意な改善を遂げました GDPval-AAは、専用端末環境とウェブアクセスを用いて、プレゼンテーション準備や分析などの現実的な知識作業タスクにおけるモデル出力を比較します。作業成果は互いに比較され、自動パイプラインで評価されてマッチングやELOスコアが出されます。 † @Zai_orgのGLM-4.7はELOが1224に達し、GPT-5.1(高)にすぐ次ぐ位置で、GLM-4.6と比べて約170ポイント上昇しています。つまり、GLM-4.7の出力は直接比較した場合、GLM-4.6を73%の確率で上回ると予想されます。 @MiniMax__AIまた、M2.1のリリースによりGDPval-AAの改善も見られ、以前のM2モデルと比べてELOが+56ポイント上昇しましたが、依然としてGLM-4.6とGPT-5.1 Codex(高)の間に位置しています。
GDPval-AAリーダーボード: GLM-4.7サーバーレスAPIプロバイダーの人工分析比較: MiniMax M2.1サーバーレスAPIプロバイダーの人工分析比較:
2.89K