Apparemment, Opus 4.5 a mémorisé MATH de Hendrycks (y compris l'ensemble de test) et tous les AIMEs précédents également. Le modèle obtient environ 80-90 % de bonnes réponses lorsqu'il sort le nombre immédiatement sans aucune raison. C'est agaçant d'expérimenter sur des ensembles de données mathématiques...