Tydligen har Opus 4.5 hendrycks MATH memorerad (inklusive testuppsättningen) och alla tidigare AIMEs utantill också. Modellen får ungefär 80-90% rätt när den spottar ut siffran direkt utan någon resonemang. Det gör det irriterande att experimentera på matematiska datamängder...