Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nuova ricerca di Anthropic: Misurare l'autonomia degli agenti AI in pratica.
Abbiamo analizzato milioni di interazioni tra Claude Code e la nostra API per comprendere quanto autonomia le persone concedano agli agenti, dove vengono impiegati e quali rischi possono comportare.
Leggi di più:
Gli agenti sono già in fase di distribuzione in contesti che vanno dalla gestione delle e-mail alla ricerca sulla cybersecurity.
Comprendere questo spettro è fondamentale per un'implementazione sicura, eppure sappiamo sorprendentemente poco su come le persone utilizzino effettivamente gli agenti nel mondo reale.
La maggior parte dei turni di Claude Code è breve (mediana ~45 secondi). Ma i turni più lunghi mostrano dove sta andando l'autonomia.
In tre mesi, la durata dei turni al 99,9° percentile è quasi raddoppiata, passando da meno di 25 minuti a oltre 45 minuti. Questa crescita è fluida attraverso le versioni del modello.

Man mano che gli utenti acquisiscono esperienza, la loro strategia di supervisione cambia.
I nuovi utenti approvano ogni azione singolarmente. Dopo 750 sessioni, oltre il 40% delle sessioni è completamente approvato automaticamente.

Ma le interruzioni aumentano anche con l'esperienza. I nuovi utenti interrompono Claude Code nel 5% dei turni, rispetto al 9% degli utenti più esperti.
Questo suggerisce un passaggio dall'approvazione di ogni azione alla delega e all'interruzione quando necessario.

Claude Code incoraggia anche la supervisione fermandosi a fare domande.
Su compiti complessi, Claude Code si ferma per chiarimenti più di due volte rispetto a quanto gli esseri umani lo interrompono. Addestrare i modelli a riconoscere l'incertezza è una proprietà di sicurezza importante e sottovalutata.

La maggior parte delle azioni degli agenti sulla nostra API sono a basso rischio. Il 73% delle chiamate agli strumenti sembra avere un umano nel loop, e solo lo 0,8% sono irreversibili.
Ma alla frontiera, vediamo agenti che agiscono su sistemi di sicurezza, transazioni finanziarie e distribuzioni in produzione (anche se alcuni potrebbero essere valutazioni).

L'ingegneria del software rappresenta circa il 50% delle chiamate agli strumenti agentici sulla nostra API, ma vediamo un uso emergente in altri settori.
Man mano che la frontiera del rischio e dell'autonomia si espande, il monitoraggio post-deploy diventa essenziale. Incoraggiamo altri sviluppatori di modelli a estendere questa ricerca.

Una lezione centrale di questo lavoro è che l'autonomia è co-costruita dal modello, dall'utente e dal prodotto. Non può essere completamente caratterizzata solo dalle valutazioni pre-implementazione.
Per ulteriori dettagli e le nostre raccomandazioni per sviluppatori e responsabili politici, consulta il blog:
210
Principali
Ranking
Preferiti
