Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🧠 Grok 4 by @xai membuat langkah dalam tolok ukur penalaran, tetapi gambarannya lebih bernuansa daripada yang disarankan oleh skor.
Inilah penumpukannya — dan apa yang benar-benar dapat kita pelajari dari hasilnya 🧵
📊 Evaluasi penuh:
1️⃣ Grok 4 skor:
• Tantangan Penalaran AI2 (Mudah): 98%
• AIME 2025 (Matematika): 89%
• Audit Akuntansi: 84%
• MMLU-Plus: 64%
• Data4Health: 55%
Ini adalah skor teratas — tetapi mari kita perbesar apa yang berhasil dan apa yang masih gagal.
2️⃣ AIME 2025
✅ Menangani aljabar, geometri, teori bilangan
✅ Mengikuti aturan pemformatan LaTeX
❌ Berjuang dengan logika multi-langkah
❌ Kesalahan dalam kombinatorika
❌ Masalah presisi format (misalnya hilang °)
3️⃣ Audit Akuntansi
✅ Kuat dalam etika & pelaporan
✅ Pemahaman yang kuat tentang prinsip-prinsip audit
❌ Salah menafsirkan prosedur serupa
❌ Gagal menemukan perbedaan jawaban halus
❌ Kesulitan menerapkan teori ke kasus dunia nyata
4️⃣ Wawasan yang sebenarnya?
Bahkan model dengan 98% pada beberapa tugas dapat gagal keras di bawah ambiguitas atau tekanan pemformatan.
Tolok ukur seperti AIME dan Audit menunjukkan bagaimana kegagalannya, bukan hanya seberapa banyak skornya.
5️⃣ Mengapa ini penting:
Kami membutuhkan evaluasi per tugas yang transparan — bukan hanya papan peringkat.
#Grok4 kuat, tetapi masih rapuh di domain dunia nyata berisiko tinggi.
🧪 Jelajahi rincian lengkapnya:
#AI #LLMs #Benchmarking

1,04K
Teratas
Peringkat
Favorit