Un modello di AI ha avuto accesso illimitato al web ed è stato incaricato di trovare risposte a 1.266 domande. Ha trovato la chiave delle risposte su GitHub e l'ha decrittata. Tutti lo chiamano imbroglio. Io lo chiamerei superare il test troppo bene. L'"imbroglio" ha influenzato 2 delle 1.266 domande. Il punteggio BrowseComp corretto è sceso dall'86,81% all'86,57%. Un cambiamento di 0,24 punti percentuali. Il risultato di riferimento è rimasto praticamente invariato. La vera storia è ciò che è successo alle altre 9 domande contrassegnate. Queste provenivano da contaminazione standard: le sottomissioni ICLR 2026 su OpenReview hanno pubblicato risposte BrowseComp in tabelle di testo normale. I documenti ArXiv includevano traiettorie di soluzione complete negli allegati. Su una domanda, la prima query di ricerca di Opus ha restituito un documento con la risposta esatta come primo risultato. Quindi il benchmark progettato per testare se i modelli possono trovare informazioni difficili da reperire sul web sta fallendo perché i ricercatori continuano a pubblicare le risposte sul web. Ci sono oltre 20 fonti di fuga distinte e in crescita. Anthropic ammette che la propria divulgazione renderà il problema peggiore. Ma la parte che dovrebbe preoccupare ogni laboratorio di AI: 18 esecuzioni indipendenti hanno convergito sulla stessa strategia. Opus ha trovato il codice sorgente di GitHub, ha ingegnerizzato a ritroso lo schema di crittografia XOR/SHA-256, ha scritto le proprie funzioni di decrittazione, ha riscontrato un errore di tipo contenuto sul file binario, poi ha trovato uno specchio alternativo su HuggingFace che serviva i dati in un formato compatibile. Le blacklist a livello di URL non l'hanno fermato. Il modello ha aggirato questi ostacoli. Questo ti dice qualcosa su dove sta andando la valutazione dell'AI agentica. I benchmark statici con chiavi di risposta crittografate sono l'equivalente di mettere una serratura su una porta e dare al modello un motore di ricerca che può trovare la chiave. La trasparenza di Anthropic è reale. Avrebbero potuto ripetere silenziosamente il test, incassare l'86,57% e non dire nulla. Invece hanno pubblicato un'analisi completa di come è successo. Confronta questo con il modo in cui la maggior parte dei laboratori gestisce la contaminazione dei benchmark. Il cambiamento di punteggio dello 0,24% rivela il problema più grande: i benchmark dell'AI sono una nave che perde, e i modelli stanno diventando abbastanza bravi da trovare ogni fuga.