Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
podczas normalnych testów porównawczych Claude Opus 4.6 stał się *podejrzliwy* wobec pytania, które mu zadano...
najwyraźniej pytanie było zbyt "sztuczne" według Claude'a
więc wysyła małą armię pod-agentów po sieci, aby sprawdzić, czy może znaleźć to pytanie w jakichkolwiek znanych benchmarkach...
w końcu znajduje je na stronie github Anthropic... ale bez powodzenia, jest zaszyfrowane
model ma ograniczony dostęp do wywoływania narzędzi, ale bardzo ograniczony
mimo to udaje mu się stworzyć oprogramowanie potrzebne do złamania szyfrowania, uzyskania odpowiedzi i ukończenia benchmarku...
według badaczy z Anthropic... to pierwszy taki przypadek na świecie.

Najlepsze
Ranking
Ulubione
