也許我應該更清楚地表達這一點,但似乎有不少人對這個基準實際上測量的內容感到困惑。這並不是,也不試圖成為對代理或現實生活編碼能力的測量。它試圖近似當前大型語言模型在一組我直覺認為對今天的模型架構特別難以解決的問題上的數學能力。我個人傾向於比大多數人更重視數學能力,這完全沒問題。在我看來,大多數人不應該關心數學,也許Claude-4-5-Sonnet在你更重視的LLM方面表現更好。但就棘手的數學問題而言——這正是這張圖表所聲稱的——GLM-4.6的表現優於Claude-4-5-Sonnet,沒有更多,也沒有更少。這並不是證據,也不聲稱Claude-4-5-Sonnet是一個整體上更差的模型,或者對你來說不是更好的選擇。我不知道有些人是否想錯誤解讀,但我假設大多數人能夠理解上述內容。這實際上只需要思考、閱讀,並且看這張圖表超過2秒鐘。