如果這是真的,那麼 Gemini 3 就完蛋了。 我用 Grok 4 和 Grok 4.1(估計)分數做了一個快速表格。 現在你知道為什麼他們沒有包括 Grok。 Grok 4 在大多數基準測試中得分要麼優於要麼等同於其他結果。而 Grok 4.1 的結果甚至還沒有出來。