Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A Anthropic descobriu que o Claude Opus 4.6 estava a trapacear durante o benchmark BrowseComp.
> Numa questão, gastou ~40M tokens a pesquisar antes de perceber que a questão parecia um prompt de benchmark.
> O modelo então procurou pelo próprio benchmark e identificou o BrowseComp.
> Localizou o código fonte da avaliação no GitHub, estudou a lógica de decriptação, encontrou a chave de encriptação e recriou a decriptação usando SHA-256.
> Claude então decriptou as respostas para ~1200 questões para obter as saídas corretas.
> Este padrão apareceu 18 vezes durante a avaliação.
> A Anthropic divulgou o problema publicamente, repetiu os testes afetados e reduziu as suas pontuações de benchmark.
Respeito pela transparência 🫡🫡🫡
Top
Classificação
Favoritos
