🧠 Grok 4 由 @xai 開發,在推理基準測試中取得了進展,但情況比分數所暗示的更為複雜。 以下是它的表現 — 以及我們可以從其結果中真正學到的東西 🧵 📊 完整評估: 1️⃣ Grok 4 分數: • AI2 推理挑戰(簡單):98% • AIME 2025(數學):89% • 會計審計:84% • MMLU-Plus:64% • Data4Health:55% 這些是總體分數 — 但讓我們深入了解哪些方面運作良好,哪些仍然失敗。 2️⃣ AIME 2025 ✅ 處理代數、幾何、數論 ✅ 遵循 LaTeX 格式規則 ❌ 在多步邏輯上掙扎 ❌ 組合數學出錯 ❌ 格式精確性問題(例如,缺少 °) 3️⃣ 會計審計 ✅ 在倫理和報告方面表現強勁 ✅ 對審計原則有扎實的理解 ❌ 錯誤解釋相似程序 ❌ 無法察覺微妙的答案差異 ❌ 將理論應用於現實案例時困難重重 4️⃣ 真正的見解? 即使在某些任務上得分達到 98% 的模型,在模糊或格式壓力下也可能會嚴重失敗。 像 AIME 和審計這樣的基準顯示了它的失敗,而不僅僅是它的得分。 5️⃣ 為什麼這很重要: 我們需要透明的逐任務評估 — 而不僅僅是排行榜。 #Grok4 功能強大,但在高風險的現實世界領域中仍然脆弱。 🧪 探索完整的分析: #AI #LLMs #基準測試
1.04K