トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🧠 Grok 4 by @xai は推論ベンチマークで進歩を遂げていますが、スコアが示すよりも状況は微妙です。
ここでは、その積み重ね方と、その結果🧵から実際に何を学ぶことができるかを説明します
📊 フル評価:
1️⃣ Grok 4スコア:
•AI2推論チャレンジ(簡単):98%
• AIME 2025 (数学): 89%
• 会計監査:84%
• MMLU-Plus:64%
• Data4Health:55%
これらはトップラインのスコアですが、何がうまくいっていて、何がまだ失敗しているのかにズームインしてみましょう。
2️(2025年エイミー)
✅ 代数、幾何学、数論を扱います
✅ LaTeXのフォーマットルールに準拠
❌ マルチステップロジックに苦労している
❌ 組み合わせ論の誤り
❌ フォーマットの精度の問題(例:°の欠落)
3️(3)会計監査
✅ 倫理と報告に強い
✅ 監査原則の確実な理解
❌ 同様の手順を誤って解釈する
❌ 微妙な答えの違いを見つけられない
❌ 理論を現実世界のケースに応用するのは難しい
4️⃣ 本当の洞察力とは?
一部のタスクで 98% のモデルであっても、あいまいさや書式設定のストレスの下では、大きな失敗をする可能性があります。
AIMEやAuditなどのベンチマークは、スコアだけでなく、どのように失敗するかを示しています。
5️⃣ なぜこれが重要なのか:
リーダーボードだけでなく、タスクごとの透明性のある評価が必要です。
#Grok4 は強力ですが、リスクの高い現実世界のドメインではまだ脆弱です。
🧪 完全な内訳をご覧ください。
#AI #LLMs #Benchmarking

1.04K
トップ
ランキング
お気に入り