Blijkbaar heeft Opus 4.5 de MATH van Hendrycks uit het hoofd geleerd (inclusief de testset) en ook alle eerdere AIMEs. Het model krijgt ongeveer 80-90% goed wanneer het het nummer onmiddellijk zonder enige redenering eruit spuugt. Dat maakt het vervelend om te experimenteren met wiskundedatasets...