Los benchmarks de IA son un poco como los exámenes estandarizados con los que crecimos en el colegio. Parece que OpenAI ha enseñado a hacer el test con la versión 5.2 y ha creado un modelo que es mejor para hacer exámenes que para hacer cosas útiles por sí solo. Espero que hayan corregido el rumbo. Por ahora uso Gemini y Grok