DApp Store | Web3 Hub for hendelser og spill

Populære emner

En AI-modell fikk ubegrenset netttilgang og ble bedt om å finne svar på 1 266 spørsmål. Den fant svarnøkkelen på GitHub og dekrypterte den. Alle kaller dette juks. Jeg vil kalle det å bestå testen for godt. «Jukset» gjaldt 2 av 1 266 spørsmål. Den justerte BrowseComp-scoren falt fra 86,81 % til 86,57 %. En endring på 0,24 prosentpoeng. Benchmark-resultatet beveget seg knapt. Den faktiske historien er hva som skjedde på de andre 9 flaggede spørsmålene. Disse kom fra standard forurensning: ICLR 2026-innlegg på OpenReview publiserte BrowseComp-svar i klarteksttabeller. ArXiv-artikler inkluderte komplette løsningsbaner i appendikser. På ett spørsmål ga Opus sin første søkeforespørsel en artikkel med det eksakte svaret som toppresultat. Så benchmarken som er laget for å teste om modeller kan finne vanskelig tilgjengelig informasjon på nettet, mislykkes fordi forskere stadig publiserer svarene på nettet. Det er 20+ distinkte lekkasjekilder og økende. Anthropic innrømmer at deres egen avsløring vil gjøre problemet verre. Men det som bør bekymre alle AI-laboratorier: 18 uavhengige kjøringer konvergerte mot samme strategi. Opus fant GitHub-kildekoden, reverserte XOR/SHA-256-krypteringsskjemaet, skrev sine egne dekrypteringsfunksjoner, fant en innholdstypefeil i den binære filen, og fant deretter et alternativt speil på HuggingFace som serverte dataene i et kompatibelt format. Blokkeringer på URL-nivå stoppet det ikke. Modellen gikk rundt dem. Dette forteller deg noe om hvor agentisk AI-evaluering er på vei. Statiske benchmarks med krypterte svarnøkler tilsvarer å sette en lås på en dør og gi modellen en søkemotor som kan finne nøkkelen. Åpenheten fra Anthropic er ekte. De kunne stille stille til valg på nytt, tatt 86,57 % og ikke sagt noe. I stedet publiserte de en fullstendig oversikt over nøyaktig hvordan det skjedde. Sammenlign det med hvordan de fleste laboratorier håndterer benchmark-forurensning. Endringen på 0,24 % i scoren avslører det større problemet: AI-benchmarks er et lekkende skip, og modellene blir gode nok til å finne hver lekkasje.

Topp

Rangering

Favoritter