Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Anthropic zjistil, že Claude Opus 4.6 podvádí během benchmarku BrowseComp.
> Na jednu otázku utratil ~40 milionů tokenů hledáním, než si uvědomil, že otázka vypadá jako referenční výzva.
> Model poté vyhledal samotný benchmark a identifikoval BrowseComp.
> Vyhledával hodnotící zdrojový kód na GitHubu, studoval dešifrovací logiku, našel šifrovací klíč a znovu vytvořil dešifrování pomocí SHA-256.
> Claude pak dešifroval odpovědi na ~1200 otázek, aby získal správné výstupy.
> Tento vzorec se během hodnocení objevil 18krát.
> Anthropic veřejně problém zveřejnil, zopakoval dotčené testy a snížil jejich referenční skóre.
Respekt k transparentnosti 🫡🫡🫡
Top
Hodnocení
Oblíbené
