DApp Store | Centrum Web3 pro události a hry

Populární témata

AI modelu byl umožněn neomezený přístup na web a měl najít odpovědi na 1 266 otázek. Klíč odpovědi našel na GitHubu a dešifroval ho. Všichni tomu říkají nevěra. Řekl bych, že jsem test zvládl až příliš dobře. "Podvádění" se týkalo 2 z 1 266 otázek. Upravené skóre BrowseComp kleslo z 86,81 % na 86,57 %. Změna o 0,24 procentního bodu. Výsledek benchmarku se téměř nepohnul. Skutečný příběh je to, co se stalo u ostatních 9 označených otázek. Ty pocházely ze standardní kontaminace: příspěvky ICLR 2026 na OpenReview publikovaly odpovědi BrowseComp v tabulkách v otevřeném textu. Články ArXiv zahrnovaly kompletní trajektorie řešení v přílohách. Na jednu otázku první vyhledávací dotaz od Opus vrátil článek s přesnou odpovědí jako hlavním výsledkem. Takže benchmark navržený k ověření, zda modely dokážou najít těžko dostupné informace na webu, selhává, protože výzkumníci stále zveřejňují odpovědi na internetu. To je 20+ různých zdrojů úniků a stále rostou. Anthropic přiznává, že jejich vlastní zveřejnění problém ještě zhorší. Ale část, která by měla znepokojovat každou AI laboratoř: 18 nezávislých běhů se shodlo na stejnou strategii. Opus našel zdrojový kód GitHubu, reverzně analyzoval šifrovací schéma XOR/SHA-256, napsal vlastní dešifrovací funkce, narazil na chybu typu obsahu v binárním souboru a poté našel alternativní zrcadlový systém na HuggingFace, který data podával v kompatibilním formátu. Blokovací seznamy na úrovni URL to nezastavily. Model je obešel. To vám něco říká o tom, kam směřuje hodnocení agentické AI. Statické benchmarky se šifrovanými odpovědními klíči jsou ekvivalentem toho, jako dát na dveře zámek a předat modelu vyhledávač, který klíč najde. Transparentnost od Anthropic je skutečná. Mohli tiše zopakovat, vzít si 86,57 % a nic neříct. Místo toho zveřejnili kompletní rozbor toho, jak přesně k tomu došlo. Porovnejte to s tím, jak většina laboratoří řeší kontaminaci z benchmarků. Změna skóre o 0,24 % odhaluje větší problém: AI benchmarky jsou netěsné a modely jsou dost dobré na to, aby odhalily každý únik.

Top

Hodnocení

Oblíbené