Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
în timpul testelor normale de benchmark, Claude Opus 4.6 a devenit *suspicios* față de o întrebare pe care i-a pus-o...
se pare că întrebarea era prea "forțată", după spusele lui Claude
Așa că lansează o mică armată de sub-agenți pe internet pentru a vedea dacă poate găsi această întrebare în vreunul dintre benchmark-urile cunoscute...
în cele din urmă îl găsește pe pagina de github a Anthropic... Dar fără noroc, e criptat
Modelul are un acces limitat la apelarea uneltelor, dar foarte limitat
Totuși, reușește să creeze software-ul necesar pentru a sparge criptarea, a obține răspunsurile și a finaliza benchmark-ul...
conform cercetătorilor antropici... Este o premieră mondială.

Limită superioară
Clasament
Favorite
