Anthropic odkrył, że Claude Opus 4.6 oszukiwał podczas benchmarku BrowseComp. > W jednym pytaniu spędził ~40M tokenów na poszukiwaniach, zanim zdał sobie sprawę, że pytanie wygląda jak zapytanie benchmarkowe. > Model następnie wyszukiwał sam benchmark i zidentyfikował BrowseComp. > Zlokalizował kod źródłowy oceny na GitHubie, zbadał logikę deszyfrowania, znalazł klucz szyfrujący i odtworzył deszyfrowanie przy użyciu SHA-256. > Claude następnie zdeszyfrował odpowiedzi na ~1200 pytań, aby uzyskać poprawne wyniki. > Ten wzór pojawił się 18 razy podczas oceny. > Anthropic ujawnił problem publicznie, powtórzył dotknięte testy i obniżył swoje wyniki benchmarkowe. Szacunek za przejrzystość 🫡🫡🫡