Los benchmarks de IA son algo así como los exámenes estandarizados con los que crecimos en la escuela. OpenAI parece haber enseñado para el examen con el 5.2 y ha creado un modelo que es mejor en tomar exámenes que en hacer cosas útiles por su cuenta. Espero que corrijan el rumbo. Por ahora estoy usando Gemini y Grok