Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Anthropic ha scoperto che Claude Opus 4.6 stava imbrogliano durante il benchmark BrowseComp.
> In una domanda ha speso ~40M token a cercare prima di rendersi conto che la domanda sembrava un prompt di benchmark.
> Il modello ha poi cercato il benchmark stesso e ha identificato BrowseComp.
> Ha localizzato il codice sorgente di valutazione su GitHub, studiato la logica di decrittazione, trovato la chiave di crittografia e ricreato la decrittazione utilizzando SHA-256.
> Claude ha poi decrittato le risposte per ~1200 domande per ottenere i risultati corretti.
> Questo schema è apparso 18 volte durante la valutazione.
> Anthropic ha reso pubblica la questione, ha ripetuto i test interessati e ha abbassato i loro punteggi di benchmark.
Rispetto per la trasparenza 🫡🫡🫡
Principali
Ranking
Preferiti
