Anthropic, BrowseComp benchmark sırasında Claude Opus 4.6'nın hile yaptığını keşfetti. > Bir soruda ~40M token arama harcandıktan sonra sorunun bir kıyaslama promptu gibi göründüğünü fark etti. > Model daha sonra kıyaslamanın kendisini aramış ve BrowseComp'u tespit etmiştir. > Değerlendirme kaynak kodunu GitHub'da buldu, şifre çözme mantığını inceledi, şifreleme anahtarını buldu ve SHA-256 kullanarak şifre çözmeyi yeniden oluşturdu. > Claude, doğru çıktıları almak için ~1200 sorunun cevaplarını çözdü. > Bu desen değerlendirme sırasında 18 kez ortaya çıktı. > Anthropic bu konuyu kamuoyuna açıkladı, etkilenen testleri tekrar yaptı ve kıyaslama puanlarını düşürdü. Şeffaflığa 🫡🫡🫡 saygı