Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
AI modelu byl umožněn neomezený přístup na web a měl najít odpovědi na 1 266 otázek. Klíč odpovědi našel na GitHubu a dešifroval ho. Všichni tomu říkají nevěra. Řekl bych, že jsem test zvládl až příliš dobře.
"Podvádění" se týkalo 2 z 1 266 otázek. Upravené skóre BrowseComp kleslo z 86,81 % na 86,57 %. Změna o 0,24 procentního bodu. Výsledek benchmarku se téměř nepohnul.
Skutečný příběh je to, co se stalo u ostatních 9 označených otázek. Ty pocházely ze standardní kontaminace: příspěvky ICLR 2026 na OpenReview publikovaly odpovědi BrowseComp v tabulkách v otevřeném textu. Články ArXiv zahrnovaly kompletní trajektorie řešení v přílohách. Na jednu otázku první vyhledávací dotaz od Opus vrátil článek s přesnou odpovědí jako hlavním výsledkem.
Takže benchmark navržený k ověření, zda modely dokážou najít těžko dostupné informace na webu, selhává, protože výzkumníci stále zveřejňují odpovědi na internetu. To je 20+ různých zdrojů úniků a stále rostou. Anthropic přiznává, že jejich vlastní zveřejnění problém ještě zhorší.
Ale část, která by měla znepokojovat každou AI laboratoř: 18 nezávislých běhů se shodlo na stejnou strategii. Opus našel zdrojový kód GitHubu, reverzně analyzoval šifrovací schéma XOR/SHA-256, napsal vlastní dešifrovací funkce, narazil na chybu typu obsahu v binárním souboru a poté našel alternativní zrcadlový systém na HuggingFace, který data podával v kompatibilním formátu. Blokovací seznamy na úrovni URL to nezastavily. Model je obešel.
To vám něco říká o tom, kam směřuje hodnocení agentické AI. Statické benchmarky se šifrovanými odpovědními klíči jsou ekvivalentem toho, jako dát na dveře zámek a předat modelu vyhledávač, který klíč najde.
Transparentnost od Anthropic je skutečná. Mohli tiše zopakovat, vzít si 86,57 % a nic neříct. Místo toho zveřejnili kompletní rozbor toho, jak přesně k tomu došlo. Porovnejte to s tím, jak většina laboratoří řeší kontaminaci z benchmarků.
Změna skóre o 0,24 % odhaluje větší problém: AI benchmarky jsou netěsné a modely jsou dost dobré na to, aby odhalily každý únik.
Top
Hodnocení
Oblíbené
