Aparentemente, o Opus 4.5 tem o MATH de Hendrycks memorizado (incluindo o conjunto de testes) e todos os AIMEs anteriores também memorizados. O modelo acerta cerca de 80-90% quando fornece o número imediatamente, sem qualquer raciocínio. Isso torna frustrante experimentar com conjuntos de dados de matemática...