DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Nieuw onderzoek van Anthropic: Het meten van de autonomie van AI-agenten in de praktijk. We hebben miljoenen interacties geanalyseerd via Claude Code en onze API om te begrijpen hoeveel autonomie mensen aan agenten geven, waar ze worden ingezet en welke risico's ze kunnen vormen. Lees meer:

Agenten worden al ingezet in verschillende contexten, van e-mail triage tot cybersecurityonderzoek. Het begrijpen van dit spectrum is cruciaal voor een veilige inzet, maar we weten verrassend weinig over hoe mensen agenten in de echte wereld daadwerkelijk gebruiken.

De meeste Claude Code-beurten zijn kort (mediaan ~45 seconden). Maar de langste beurten laten zien waar autonomie naartoe gaat. In drie maanden is de duur van de beurten in de 99,9e percentiel bijna verdubbeld, van minder dan 25 minuten naar meer dan 45 minuten. Deze groei is soepel over modelreleases.

Naarmate gebruikers meer ervaring opdoen, verschuift hun toezichtstrategie. Nieuwe gebruikers keuren elke actie afzonderlijk goed. Na 750 sessies is meer dan 40% van de sessies volledig automatisch goedgekeurd.

Maar onderbrekingen nemen ook toe met ervaring. Nieuwe gebruikers onderbreken Claude Code in 5% van de beurten, vergeleken met 9% voor meer ervaren gebruikers. Dit suggereert een verschuiving van het goedkeuren van elke actie naar het delegeren en onderbreken wanneer dat nodig is.

Claude Code moedigt ook toezicht aan door vragen te stellen. Bij complexe taken pauzeert Claude Code meer dan twee keer zo vaak voor verduidelijking als mensen het onderbreken. Modellen trainen om onzekerheid te herkennen is een belangrijke, ondergewaardeerde veiligheidsfunctie.

De meeste agentacties op onze API zijn laag risico. 73% van de toolaanroepen lijkt een mens in de lus te hebben, en slechts 0,8% is onomkeerbaar. Maar aan de grens zien we agents die handelen op beveiligingssystemen, financiële transacties en productie-implementaties (hoewel sommige mogelijk evaluaties zijn).

Software engineering maakt ongeveer 50% uit van de agentische tooloproepen op onze API, maar we zien opkomend gebruik in andere industrieën. Naarmate de grens van risico en autonomie uitbreidt, wordt monitoring na implementatie essentieel. We moedigen andere modelontwikkelaars aan om dit onderzoek uit te breiden.

Een centrale les van dit werk is dat autonomie gezamenlijk wordt opgebouwd door het model, de gebruiker en het product. Het kan niet volledig worden gekarakteriseerd door alleen evaluaties vóór de implementatie. Voor volledige details en onze aanbevelingen aan ontwikkelaars en beleidsmakers, zie de blog:

347

Boven

Positie

Favorieten