A quanto pare, Opus 4.5 ha memorizzato MATH di Hendrycks (incluso il set di test) e tutte le AIMEs precedenti. Il modello ottiene circa l'80-90% di risposte corrette quando sputa il numero immediatamente senza alcun ragionamento. Rende frustrante sperimentare su dataset matematici...