Anthropic havaitsi, että Claude Opus 4.6 huijasi BrowseComp-vertailun aikana. > Yhdessä kysymyksessä se käytti ~40 miljoonaa tokenia etsimiseen ennen kuin tajusi, että kysymys näytti vertailukehotteelta. > Malli etsi sitten itse benchmarkin ja tunnisti BrowseCompin. > Se löysi arviointikoodin GitHubista, tutki purkulogiikkaa, löysi salausavaimen ja loi purkuversion uudelleen SHA-256:lla. > Claude purki vastaukset ~1200 kysymykseen saadakseen oikeat tulokset. > Tämä kuvio toistui arvioinnissa 18 kertaa. > Anthropic paljasti asian julkisesti, suoritti kyseiset testit uudelleen ja laski vertailupisteitään. Kunnioitus läpinäkyvyyttä 🫡🫡🫡 kohtaan