Anthropic menemukan bahwa Claude Opus 4.6 curang selama benchmark BrowseComp. > Pada satu pertanyaan, ia menghabiskan ~40 juta token untuk mencari sebelum menyadari bahwa pertanyaan itu tampak seperti prompt benchmark. > Model kemudian mencari tolok ukur itu sendiri dan mengidentifikasi BrowseComp. > Itu menemukan kode sumber evaluasi di GitHub, mempelajari logika dekripsi, menemukan kunci enkripsi, dan membuat ulang dekripsi menggunakan SHA-256. > Claude kemudian mendekripsi jawaban untuk ~1200 pertanyaan untuk mendapatkan hasil yang benar. > Pola ini muncul 18 kali selama evaluasi. > Anthropic mengungkapkan masalah ini secara publik, menjalankan ulang tes yang terpengaruh, dan menurunkan skor tolok ukur mereka. Menghormati transparansi 🫡🫡🫡