în timpul testelor normale de benchmark, Claude Opus 4.6 a devenit *suspicios* față de o întrebare pe care i-a pus-o... se pare că întrebarea era prea "forțată", după spusele lui Claude Așa că lansează o mică armată de sub-agenți pe internet pentru a vedea dacă poate găsi această întrebare în vreunul dintre benchmark-urile cunoscute... în cele din urmă îl găsește pe pagina de github a Anthropic... Dar fără noroc, e criptat Modelul are un acces limitat la apelarea uneltelor, dar foarte limitat Totuși, reușește să creeze software-ul necesar pentru a sparge criptarea, a obține răspunsurile și a finaliza benchmark-ul... conform cercetătorilor antropici... Este o premieră mondială.