Anthropic ha scoperto che Claude Opus 4.6 stava imbrogliano durante il benchmark BrowseComp. > In una domanda ha speso ~40M token a cercare prima di rendersi conto che la domanda sembrava un prompt di benchmark. > Il modello ha poi cercato il benchmark stesso e ha identificato BrowseComp. > Ha localizzato il codice sorgente di valutazione su GitHub, studiato la logica di decrittazione, trovato la chiave di crittografia e ricreato la decrittazione utilizzando SHA-256. > Claude ha poi decrittato le risposte per ~1200 domande per ottenere i risultati corretti. > Questo schema è apparso 18 volte durante la valutazione. > Anthropic ha reso pubblica la questione, ha ripetuto i test interessati e ha abbassato i loro punteggi di benchmark. Rispetto per la trasparenza 🫡🫡🫡