Nova pesquisa antrópica: Medindo a autonomia dos agentes de IA na prática. Analisamos milhões de interações entre o Claude Code e nossa API para entender quanta autonomia as pessoas concedem aos agentes, onde eles são implantados e quais riscos podem representar. Leia mais:
Agentes já estão sendo implantados em contextos que vão desde triagem de e-mails até pesquisa em cibersegurança. Compreender esse espectro é fundamental para uma implantação segura, mas sabemos surpreendentemente pouco sobre como as pessoas realmente usam agentes no mundo real.
A maioria das curvas do Claude Code são curtas (mediana ~45 segundos). Mas as curvas mais longas mostram para onde a autonomia está indo. Em três meses, a duração do turno no percentil 99,9 quase dobrou, passando de menos de 25 minutos para mais de 45 minutos. Esse crescimento é suave em todos os lançamentos dos modelos.
À medida que os usuários ganham experiência, sua estratégia de supervisão muda. Novos usuários aprovam cada ação individualmente. Em 750 sessões, mais de 40% das sessões são totalmente aprovadas automaticamente.
Mas as interrupções também aumentam com a experiência. Novos usuários interrompem o Claude Code em 5% dos turnos, contra 9% para usuários mais experientes. Isso sugere uma mudança de aprovar cada ação para delegar e interromper quando necessário.
Claude Code também incentiva a supervisão ao parar para fazer perguntas. Em tarefas complexas, Claude Code pausa para esclarecimento mais do que o dobro das vezes que os humanos interrompem. Treinar modelos para reconhecer a incerteza é uma propriedade importante e subestimada de segurança.
A maioria das ações de agentes na nossa API tem baixo risco. 73% das chamadas de ferramentas parecem ter um humano no circuito, e apenas 0,8% são irreversíveis. Mas na fronteira, vemos agentes atuando em sistemas de segurança, transações financeiras e implantações em produção (embora algumas possam ser avaliações).
Engenharia de software representa ~50% das chamadas de ferramentas agentes em nossa API, mas vemos uso emergente em outras indústrias. À medida que a fronteira de risco e autonomia se expande, o monitoramento pós-implantação torna-se essencial. Incentivamos outros desenvolvedores de modelos a ampliarem essa pesquisa.
Uma lição central deste trabalho é que a autonomia é coconstruída pelo modelo, usuário e produto. Não pode ser totalmente caracterizado apenas pelas avaliações pré-implantação. Para detalhes completos e nossas recomendações a desenvolvedores e formuladores de políticas, veja o blog:
202