Tekoälymallille annettiin rajoittamaton verkkoyhteys ja käskettiin etsiä vastauksia 1 266 kysymykseen. Se löysi vastausavaimen GitHubista ja purki sen. Kaikki kutsuvat tätä huijaamiseksi. Kutsuisin sitä kokeen läpäisemiseksi liian hyvin. "Huijaaminen" vaikutti kahteen 1 266:sta kysymyksestä. Oikaistu BrowseComp-pistemäärä laski 86,81 prosentista 86,57 prosenttiin. 0,24 prosenttiyksikön muutos. Vertailutulos ei juuri muuttunut. Varsinainen tarina on se, mitä tapahtui muissa yhdeksässä merkityssä kysymyksessä. Ne tulivat tavallisesta saastumisesta: ICLR 2026 -lähetykset OpenReview-sivustolla julkaisivat BrowseComp-vastaukset selväkielisissä taulukoissa. ArXiv-artikkeleissa liitteissä oli täydelliset ratkaisupolut liitteissä. Yhdessä kysymyksessä Opuksen ensimmäinen hakukysely palautti artikkelin, jossa oli tarkka vastaus ylätuloksena. Joten vertailukohta, jonka tarkoituksena on testata, voivatko mallit löytää vaikeasti löydettävää tietoa verkosta, epäonnistuu, koska tutkijat julkaisevat vastauksia verkossa. Se tarkoittaa 20+ erillistä vuotolähdettä ja kasvaa. Anthropic myöntää, että heidän oma paljastuksensa pahentaa ongelmaa. Mutta se, mikä pitäisi huolestuttaa jokaista tekoälylaboratoriota: 18 itsenäistä ajoa yhdistyivät samaan strategiaan. Opus löysi GitHubin lähdekoodin, käänteisesti suunnitteli XOR/SHA-256-salausjärjestelmän, kirjoitti omat purkutoimintonsa, löysi sisältötyyppivirheen binääritiedostossa ja löysi vaihtoehtoisen peilin HuggingFacesta, joka toimitti tiedot yhteensopivassa muodossa. URL-tason estolistat eivät estäneet sitä. Malli kiersi heidät. Tämä kertoo jotain siitä, mihin agenttinen tekoälyarviointi on menossa. Staattiset testit salatuilla vastausavaimilla vastaavat kuin lukon laittamista oveen ja hakukoneen antamista mallille, joka löytää avaimen. Anthropicin läpinäkyvyys on todellista. He olisivat voineet hiljaa uudelleenvaalien, napata 86,57 % ja olla sanomatta mitään. Sen sijaan he julkaisivat täydellisen erittelyn siitä, miten se tarkalleen tapahtui. Vertaa tätä siihen, miten useimmat laboratoriot käsittelevät vertailukontaminaatiota. 0,24 %:n pistemuutos paljastaa suuremman ongelman: tekoälyn testit ovat vuotava alus, ja mallit ovat tarpeeksi hyviä löytämään jokaisen vuodon.