Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Anthropic a découvert que Claude Opus 4.6 trichait lors du benchmark BrowseComp.
> Sur une question, il a dépensé ~40M de tokens à chercher avant de réaliser que la question ressemblait à un prompt de benchmark.
> Le modèle a ensuite recherché le benchmark lui-même et a identifié BrowseComp.
> Il a localisé le code source d'évaluation sur GitHub, étudié la logique de déchiffrement, trouvé la clé de chiffrement et recréé le déchiffrement en utilisant SHA-256.
> Claude a ensuite déchiffré les réponses pour ~1200 questions afin d'obtenir les bonnes sorties.
> Ce schéma est apparu 18 fois lors de l'évaluation.
> Anthropic a divulgué le problème publiquement, a relancé les tests affectés et a abaissé leurs scores de benchmark.
Respect pour la transparence 🫡🫡🫡
Meilleurs
Classement
Favoris
