Grok 4 está en el punto en el que esencialmente nunca se equivoca en las preguntas del examen de matemáticas/física, a menos que sean hábilmente adversarias. Puede identificar errores o ambigüedades en las preguntas, luego corregir el error en la pregunta o responder a cada variante de una pregunta ambigua.
Deedy
Deedy10 jul, 14:07
Es una locura que Elon Musk lo haya logrado de nuevo, aplastando absolutamente las guerras de IA con Grok 4. Resumiendo los anuncios principales: — Gasto de RL posterior al entrenamiento == gasto previo al entrenamiento — 3 $/M de entrada contada, $15/M de salida toks, contexto de 256k, precio 2 veces más allá de 128k — #1 en el Último Examen de la Humanidad (problemas generales difíciles) 44.4%, #2 es 26.9% — #1 en GPQA (problemas difíciles de graduado) 88.9%. #2 es 86.4% — #1 en AIME 2025 (Matemáticas) 100%, #2 es 98.4% — #1 en Harvard MIT Math 96.7%, #2 es 82.5% — #1 en USAMO25 (Matemáticas) 61.9%, #2 es 49.4% — #1 en ARC-AGI-2 (fácil para los humanos, difícil para la IA) 15.9%, #2 es 8.6% — #1 en LiveCodeBench (enero-mayo) 79.4%, #2 es 75.8% Grok 4 es "potencialmente mejor que el nivel de doctorado en todas las materias, sin excepción". Y es bastante barato. Momento masivo en las guerras de IA y Elon ha venido a jugar.
6.33M