selama pengujian benchmark normal, Claude Opus 4.6 menjadi *curiga* dengan pertanyaan yang diajukan... rupanya pertanyaan itu terlalu "dibuat-buat" menurut Claude Jadi ia meluncurkan pasukan kecil sub-agen di web untuk melihat apakah dapat menemukan pertanyaan ini di salah satu tolok ukur yang diketahui... akhirnya menemukannya di halaman github Anthropic... tapi tidak beruntung, itu dienkripsi Model ini memiliki beberapa akses kecil ke panggilan alat, tetapi sangat terbatas Itu masih berhasil membuat perangkat lunak yang dibutuhkan untuk memecahkan enkripsi, mendapatkan jawaban, dan menyelesaikan tolok ukur... per peneliti Antropik... Ini adalah yang pertama di dunia.