Görünüşe göre Opus 4.5'te Hendrycks'in MATH'i (test seti dahil) ezberlenmiş ve önceki tüm AIME'ler de ezberlenmiş. Model, sayıyı hemen akıl çıkarmadan çıkardığında %80-90 doğru alıyor. Matematik veri setlerinde deneme yapmak sinir bozucu oluyor...