Aparentemente, Opus 4.5 tiene memorizado el MATH de Hendrycks (incluido el conjunto de pruebas) y todos los AIMEs anteriores también. El modelo acierta como un 80-90% cuando suelta el número inmediatamente sin ningún razonamiento. Es molesto experimentar con conjuntos de datos de matemáticas...