Offenbar hat Opus 4.5 die MATH von Hendrycks auswendig gelernt (einschließlich des Testsets) und auch alle vorherigen AIMEs. Das Modell erzielt etwa 80-90 % richtig, wenn es die Zahl sofort ohne jegliches Nachdenken ausspuckt. Das macht es ärgerlich, mit Mathe-Datensätzen zu experimentieren...