Wygląda na to, że Opus 4.5 ma zapamiętane MATH Hendrycksa (w tym zestaw testowy) oraz wszystkie wcześniejsze AIMY. Model uzyskuje około 80-90% poprawnych odpowiedzi, gdy podaje liczbę od razu, bez żadnego rozumowania. To sprawia, że eksperymentowanie na zbiorach danych matematycznych jest irytujące...