Se pare că Opus 4.5 memorează MATH-ul lui Hendryck (inclusiv setul de test) și toate AIME-urile anterioare memorate. Modelul obține corect cam 80-90% când scutură numărul imediat, fără niciun motiv. Devine enervant să experimentezi pe seturi de date matematice...