これをもっと明確にすべきだったかもしれませんが、かなりの数の人がこのベンチマークが実際に測定するものを混乱させているようです。それはエージェントまたはIRLコーディング能力の測定ではなく、測定しようともしません。これは、今日のモデルアーキテクチャでは特に解決するのが難しいという一連の問題について、現在のLLMの数学的能力を近似しようとしています。私は個人的に、ほとんどの人よりも数学的能力をはるかに重視する傾向がありますが、これはまったく問題ありません。ほとんどの人は数学を気にするべきではなく、おそらく Claude-4-5-Sonnet は LLM でより重視するものに適しています。しかし、トリッキーな数学の問題については、GLM-4.6 は Claude-4-5-Sonnet を上回るだけであり、それ以上でもそれ以下でもありません。それは、Claude-4-5-Sonnetが全体的に悪いモデルであるか、あなたにとってより良い選択ではないという証拠でも主張でもありません。一部の人がそれを間違って解釈したいかどうかはわかりませんが、大多数の人は上記の転送を行うことができると想定しました。文字通り、2秒以上考えて読んでチャートを見るだけで済みます。