Nuova ricerca di Anthropic: Misurare l'autonomia degli agenti AI in pratica. Abbiamo analizzato milioni di interazioni tra Claude Code e la nostra API per comprendere quanto autonomia le persone concedano agli agenti, dove vengono impiegati e quali rischi possono comportare. Leggi di più:
Gli agenti sono già in fase di distribuzione in contesti che vanno dalla gestione delle e-mail alla ricerca sulla cybersecurity. Comprendere questo spettro è fondamentale per un'implementazione sicura, eppure sappiamo sorprendentemente poco su come le persone utilizzino effettivamente gli agenti nel mondo reale.
La maggior parte dei turni di Claude Code è breve (mediana ~45 secondi). Ma i turni più lunghi mostrano dove sta andando l'autonomia. In tre mesi, la durata dei turni al 99,9° percentile è quasi raddoppiata, passando da meno di 25 minuti a oltre 45 minuti. Questa crescita è fluida attraverso le versioni del modello.
Man mano che gli utenti acquisiscono esperienza, la loro strategia di supervisione cambia. I nuovi utenti approvano ogni azione singolarmente. Dopo 750 sessioni, oltre il 40% delle sessioni è completamente approvato automaticamente.
Ma le interruzioni aumentano anche con l'esperienza. I nuovi utenti interrompono Claude Code nel 5% dei turni, rispetto al 9% degli utenti più esperti. Questo suggerisce un passaggio dall'approvazione di ogni azione alla delega e all'interruzione quando necessario.
Claude Code incoraggia anche la supervisione fermandosi a fare domande. Su compiti complessi, Claude Code si ferma per chiarimenti più di due volte rispetto a quanto gli esseri umani lo interrompono. Addestrare i modelli a riconoscere l'incertezza è una proprietà di sicurezza importante e sottovalutata.
La maggior parte delle azioni degli agenti sulla nostra API sono a basso rischio. Il 73% delle chiamate agli strumenti sembra avere un umano nel loop, e solo lo 0,8% sono irreversibili. Ma alla frontiera, vediamo agenti che agiscono su sistemi di sicurezza, transazioni finanziarie e distribuzioni in produzione (anche se alcuni potrebbero essere valutazioni).
L'ingegneria del software rappresenta circa il 50% delle chiamate agli strumenti agentici sulla nostra API, ma vediamo un uso emergente in altri settori. Man mano che la frontiera del rischio e dell'autonomia si espande, il monitoraggio post-deploy diventa essenziale. Incoraggiamo altri sviluppatori di modelli a estendere questa ricerca.
Una lezione centrale di questo lavoro è che l'autonomia è co-costruita dal modello, dall'utente e dal prodotto. Non può essere completamente caratterizzata solo dalle valutazioni pre-implementazione. Per ulteriori dettagli e le nostre raccomandazioni per sviluppatori e responsabili politici, consulta il blog:
210