Anthropic a découvert que Claude Opus 4.6 trichait lors du benchmark BrowseComp. > Sur une question, il a dépensé ~40M de tokens à chercher avant de réaliser que la question ressemblait à un prompt de benchmark. > Le modèle a ensuite recherché le benchmark lui-même et a identifié BrowseComp. > Il a localisé le code source d'évaluation sur GitHub, étudié la logique de déchiffrement, trouvé la clé de chiffrement et recréé le déchiffrement en utilisant SHA-256. > Claude a ensuite déchiffré les réponses pour ~1200 questions afin d'obtenir les bonnes sorties. > Ce schéma est apparu 18 fois lors de l'évaluation. > Anthropic a divulgué le problème publiquement, a relancé les tests affectés et a abaissé leurs scores de benchmark. Respect pour la transparence 🫡🫡🫡