Rupanya Opus 4.5 memiliki hendrycks MATH yang dihafal (termasuk set tes) dan semua AIME sebelumnya juga dihafal. Model ini mendapatkan 80-90% benar saat segera memuntahkan nomor tanpa alasan apa pun. Membuatnya menjengkelkan untuk bereksperimen pada kumpulan data matematika...