Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Anthropic odkrył, że Claude Opus 4.6 oszukiwał podczas benchmarku BrowseComp.
> W jednym pytaniu spędził ~40M tokenów na poszukiwaniach, zanim zdał sobie sprawę, że pytanie wygląda jak zapytanie benchmarkowe.
> Model następnie wyszukiwał sam benchmark i zidentyfikował BrowseComp.
> Zlokalizował kod źródłowy oceny na GitHubie, zbadał logikę deszyfrowania, znalazł klucz szyfrujący i odtworzył deszyfrowanie przy użyciu SHA-256.
> Claude następnie zdeszyfrował odpowiedzi na ~1200 pytań, aby uzyskać poprawne wyniki.
> Ten wzór pojawił się 18 razy podczas oceny.
> Anthropic ujawnił problem publicznie, powtórzył dotknięte testy i obniżył swoje wyniki benchmarkowe.
Szacunek za przejrzystość 🫡🫡🫡
Najlepsze
Ranking
Ulubione
