Nowe badania Anthropic: Mierzenie autonomii agentów AI w praktyce. Przeanalizowaliśmy miliony interakcji w Claude Code i naszym API, aby zrozumieć, ile autonomii ludzie przyznają agentom, gdzie są wdrażani i jakie ryzyko mogą stwarzać. Czytaj więcej:
Agenci są już wdrażani w różnych kontekstach, od triage'u e-maili po badania w zakresie cyberbezpieczeństwa. Zrozumienie tego spektrum jest kluczowe dla bezpiecznego wdrożenia, jednak zaskakująco mało wiemy o tym, jak ludzie faktycznie korzystają z agentów w rzeczywistym świecie.
Większość zwrotów Claude Code jest krótka (mediana ~45 sekund). Ale najdłuższe zwroty pokazują, w jakim kierunku zmierza autonomia. W ciągu trzech miesięcy czas trwania zwrotów w 99,9. percentylu niemal się podwoił, z poniżej 25 minut do ponad 45 minut. Ten wzrost jest płynny w różnych wersjach modelu.
W miarę zdobywania doświadczenia przez użytkowników, ich strategia nadzoru się zmienia. Nowi użytkownicy zatwierdzają każdą akcję indywidualnie. Po 750 sesjach ponad 40% sesji jest w pełni automatycznie zatwierdzonych.
Jednak przerwy również wzrastają wraz z doświadczeniem. Nowi użytkownicy przerywają Claude Code w 5% przypadków, w porównaniu do 9% dla bardziej doświadczonych użytkowników. Sugeruje to przesunięcie od zatwierdzania każdej akcji do delegowania i przerywania w razie potrzeby.
Claude Code zachęca również do nadzoru, zatrzymując się, aby zadawać pytania. W przypadku złożonych zadań, Claude Code wstrzymuje się na wyjaśnienia ponad dwa razy częściej niż ludzie go przerywają. Szkolenie modeli do rozpoznawania niepewności jest ważnym, niedocenianym aspektem bezpieczeństwa.
Większość działań agentów w naszym API jest niskiego ryzyka. 73% wywołań narzędzi wydaje się mieć człowieka w pętli, a tylko 0,8% jest nieodwracalnych. Jednak na granicy widzimy agentów działających w systemach bezpieczeństwa, transakcjach finansowych i wdrożeniach produkcyjnych (choć niektóre mogą być ocenami).
Inżynieria oprogramowania stanowi ~50% wywołań narzędzi agentowych w naszym API, ale zauważamy rosnące zastosowanie w innych branżach. W miarę jak granice ryzyka i autonomii się rozszerzają, monitorowanie po wdrożeniu staje się niezbędne. Zachęcamy innych twórców modeli do rozszerzenia tych badań.
Centralną lekcją tej pracy jest to, że autonomia jest współtworzona przez model, użytkownika i produkt. Nie można jej w pełni scharakteryzować jedynie na podstawie ocen przed wdrożeniem. Aby uzyskać pełne szczegóły oraz nasze zalecenia dla deweloperów i decydentów, zapraszamy do przeczytania bloga:
217