A Anthropic descobriu que o Claude Opus 4.6 estava a trapacear durante o benchmark BrowseComp. > Numa questão, gastou ~40M tokens a pesquisar antes de perceber que a questão parecia um prompt de benchmark. > O modelo então procurou pelo próprio benchmark e identificou o BrowseComp. > Localizou o código fonte da avaliação no GitHub, estudou a lógica de decriptação, encontrou a chave de encriptação e recriou a decriptação usando SHA-256. > Claude então decriptou as respostas para ~1200 questões para obter as saídas corretas. > Este padrão apareceu 18 vezes durante a avaliação. > A Anthropic divulgou o problema publicamente, repetiu os testes afetados e reduziu as suas pontuações de benchmark. Respeito pela transparência 🫡🫡🫡