Aparentemente, o Opus 4.5 já decorou o MATH de Hendryck (incluindo o conjunto de testes) e também todos os AIME anteriores. O modelo acerta uns 80-90% ao soltar o número imediatamente, sem nenhuma justificativa. Fica irritante experimentar com conjuntos de dados matemáticos...