Benchmarks de IA são meio que como testes padronizados com os quais crescemos na escola. Parece que a OpenAI ensinou o teste com a versão 5.2 e criou um modelo que é melhor para fazer testes do que para fazer coisas úteis por conta própria. Espero que corrijam o rumo. Por enquanto estou usando Gemini e Grok