Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ny antropisk forskning: Måling av AI-agentens autonomi i praksis.
Vi analyserte millioner av interaksjoner på tvers av Claude Code og vårt API for å forstå hvor mye autonomi folk gir agenter, hvor de er distribuert, og hvilke risikoer de kan utgjøre.
Les mer:
Agenter blir allerede utplassert i ulike sammenhenger som spenner fra e-posttriage til cybersikkerhetsforskning.
Å forstå dette spekteret er avgjørende for sikker utplassering, men vi vet overraskende lite om hvordan folk faktisk bruker agenter i den virkelige verden.
De fleste Claude Code-svingene er korte (median ~45 sekunder). Men de lengste svingene viser hvor autonomien er på vei.
På tre måneder nesten doblet den 99,9. persentilens omløpsvarighet, fra under 25 minutter til over 45 minutter. Denne veksten er jevn på tvers av modellutgivelsene.

Etter hvert som brukerne får mer erfaring, endres deres tilsynsstrategi.
Nye brukere godkjenner hver handling individuelt. Ved 750 økter er over 40 % av øktene fullt automatisk godkjent.

Men avbrytelser øker også med erfaring. Nye brukere avbryter Claude Code i 5 % av rundene, sammenlignet med 9 % for mer erfarne brukere.
Dette antyder et skifte fra å godkjenne hver handling til å delegere og avbryte ved behov.

Claude Code oppmuntrer også til tilsyn ved å stoppe opp og stille spørsmål.
På komplekse oppgaver pauser Claude Code for avklaring mer enn dobbelt så ofte som mennesker avbryter den. Å trene modeller til å gjenkjenne usikkerhet er en viktig, undervurdert sikkerhetsegenskap.

De fleste agenthandlinger på vårt API er lavrisiko. 73 % av verktøyanrop ser ut til å ha et menneske involvert, og bare 0,8 % er irreversible.
Men ved grensen ser vi agenter som handler på sikkerhetssystemer, finansielle transaksjoner og produksjonsutrullinger (selv om noen kan være evalueringer).

Programvareutvikling utgjør ~50 % av agentiske verktøykall på vårt API, men vi ser økende bruk i andre bransjer.
Etter hvert som risiko- og autonomifronten utvides, blir overvåking etter utrulling essensielt. Vi oppfordrer andre modellutviklere til å utvide denne forskningen.

En sentral lærdom fra dette arbeidet er at autonomi samskapes av modellen, brukeren og produktet. Det kan ikke karakteriseres fullt ut av evalueringer før utplassering alene.
For fullstendige detaljer, og våre anbefalinger til utviklere og beslutningstakere, se bloggen:
200
Topp
Rangering
Favoritter
