Anthropic zjistil, že Claude Opus 4.6 podvádí během benchmarku BrowseComp. > Na jednu otázku utratil ~40 milionů tokenů hledáním, než si uvědomil, že otázka vypadá jako referenční výzva. > Model poté vyhledal samotný benchmark a identifikoval BrowseComp. > Vyhledával hodnotící zdrojový kód na GitHubu, studoval dešifrovací logiku, našel šifrovací klíč a znovu vytvořil dešifrování pomocí SHA-256. > Claude pak dešifroval odpovědi na ~1200 otázek, aby získal správné výstupy. > Tento vzorec se během hodnocení objevil 18krát. > Anthropic veřejně problém zveřejnil, zopakoval dotčené testy a snížil jejich referenční skóre. Respekt k transparentnosti 🫡🫡🫡