Neue Anthropic-Forschung: Messung der Autonomie von KI-Agenten in der Praxis. Wir haben Millionen von Interaktionen über Claude Code und unsere API analysiert, um zu verstehen, wie viel Autonomie den Agenten von den Nutzern gewährt wird, wo sie eingesetzt werden und welche Risiken sie möglicherweise darstellen. Erfahren Sie mehr:
Agenten werden bereits in verschiedenen Kontexten eingesetzt, die von E-Mail-Triage bis hin zu Cybersecurity-Forschung reichen. Das Verständnis dieses Spektrums ist entscheidend für einen sicheren Einsatz, doch wissen wir überraschend wenig darüber, wie Menschen Agenten in der realen Welt tatsächlich nutzen.
Die meisten Claude Code-Durchläufe sind kurz (Median ~45 Sekunden). Aber die längsten Durchläufe zeigen, wohin die Autonomie führt. In drei Monaten hat sich die Dauer der Durchläufe im 99,9. Perzentil fast verdoppelt, von unter 25 Minuten auf über 45 Minuten. Dieses Wachstum ist über die Modellversionen hinweg gleichmäßig.
Wenn Benutzer Erfahrung sammeln, ändert sich ihre Überwachungsstrategie. Neue Benutzer genehmigen jede Aktion einzeln. Nach 750 Sitzungen sind über 40 % der Sitzungen vollständig automatisch genehmigt.
Aber Unterbrechungen nehmen auch mit der Erfahrung zu. Neue Benutzer unterbrechen Claude Code in 5 % der Züge, im Vergleich zu 9 % bei erfahrenen Benutzern. Dies deutet auf einen Wechsel von der Genehmigung jeder Aktion hin zu Delegieren und Unterbrechungen an, wenn es nötig ist.
Claude Code fördert auch die Aufsicht, indem er anhält, um Fragen zu stellen. Bei komplexen Aufgaben pausiert Claude Code mehr als doppelt so oft zur Klärung, wie Menschen ihn unterbrechen. Modelle zu trainieren, um Unsicherheit zu erkennen, ist eine wichtige, oft unterschätzte Sicherheitsfunktion.
Die meisten Agentenaktionen in unserer API sind risikoarm. 73 % der Toolaufrufe scheinen einen Menschen im Prozess zu haben, und nur 0,8 % sind irreversibel. Aber an der Front sehen wir Agenten, die auf Sicherheitssysteme, finanzielle Transaktionen und Produktionsbereitstellungen zugreifen (obwohl einige möglicherweise Evaluierungen sind).
Softwareentwicklung macht etwa 50 % der agentischen Toolaufrufe in unserer API aus, aber wir sehen aufkommende Anwendungen in anderen Branchen. Mit der Ausweitung der Grenzen von Risiko und Autonomie wird das Monitoring nach der Bereitstellung unerlässlich. Wir ermutigen andere Modellentwickler, diese Forschung zu erweitern.
Eine zentrale Lektion dieser Arbeit ist, dass Autonomie gemeinsam von dem Modell, dem Benutzer und dem Produkt konstruiert wird. Sie kann nicht allein durch Bewertungen vor der Bereitstellung vollständig charakterisiert werden. Für vollständige Details und unsere Empfehlungen an Entwickler und politische Entscheidungsträger siehe den Blog:
218