🧠 Grok 4 由 @xai 在推理基准测试中取得了进展,但情况比分数所暗示的要复杂得多。 以下是它的表现——以及我们可以从其结果中真正学到的东西 🧵 📊 完整评估: 1️⃣ Grok 4 分数: • AI2 推理挑战(简单):98% • AIME 2025(数学):89% • 会计审计:84% • MMLU-Plus:64% • Data4Health:55% 这些是总体分数——但让我们深入了解哪些方面表现良好,哪些方面仍然存在问题。 2️⃣ AIME 2025 ✅ 处理代数、几何、数论 ✅ 遵循 LaTeX 格式规则 ❌ 在多步骤逻辑上表现不佳 ❌ 组合数学中出现错误 ❌ 格式精确性问题(例如,缺少 °) 3️⃣ 会计审计 ✅ 在伦理和报告方面表现强劲 ✅ 对审计原则有扎实的理解 ❌ 误解类似程序 ❌ 无法识别细微的答案差异 ❌ 在将理论应用于现实案例时遇到困难 4️⃣ 真正的洞察? 即使在某些任务上得分达到 98% 的模型,在模糊或格式压力下也可能表现不佳。 像 AIME 和审计这样的基准显示了它的失败,而不仅仅是它的得分。 5️⃣ 这为什么重要: 我们需要透明的逐任务评估——而不仅仅是排行榜。 #Grok4 功能强大,但在高风险的现实世界领域仍然脆弱。 🧪 探索完整的分析: #AI #LLMs #基准测试
1.06K