🧠 Grok 4 de @xai está avanzando en los puntos de referencia de razonamiento, pero el panorama es más matizado de lo que sugieren las puntuaciones. Así es como se compara, y lo que realmente podemos aprender de sus resultados 🧵 📊 Evaluación completa: 1️⃣ Grok 4 puntuaciones: • Desafío de razonamiento AI2 (fácil): 98% • AIME 2025 (Matemáticas): 89% • Auditoría Contable: 84% • MMLU-Plus: 64% • Data4Health: 55% Estas son puntuaciones de primera línea, pero centrémonos en lo que funciona y lo que aún falla. 2️⃣ AIME 2025 ✅ Maneja álgebra, geometría, teoría de números ✅ Sigue las reglas de formato de LaTeX ❌ Problemas con la lógica de varios pasos ❌ Errores en combinatoria ❌ Problemas de precisión de formato (por ejemplo, falta °) 3️⃣ Auditoría Contable ✅ Fuerte en ética y presentación de informes ✅ Comprensión sólida de los principios de auditoría ❌ Interpreta mal procedimientos similares ❌ No logra detectar diferencias sutiles en las respuestas ❌ Dificultad para aplicar la teoría a casos del mundo real 4️⃣ ¿La verdadera percepción? Incluso un modelo con un 98% en algunas tareas puede fallar rotundamente bajo la ambigüedad o el estrés del formato. Benchmarks como AIME y Audit muestran cómo falla, no solo cuánto puntúa. 5️(Por qué esto es importante): Necesitamos una evaluación transparente por tarea, no solo tablas de clasificación. #Grok4 es poderosa, pero sigue siendo frágil en dominios del mundo real de alto riesgo. 🧪 Explora el desglose completo: #AI #LLMs #Benchmarking
1.04K