Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nowe badania Anthropic: Mierzenie autonomii agentów AI w praktyce.
Przeanalizowaliśmy miliony interakcji w Claude Code i naszym API, aby zrozumieć, ile autonomii ludzie przyznają agentom, gdzie są wdrażani i jakie ryzyko mogą stwarzać.
Czytaj więcej:
Agenci są już wdrażani w różnych kontekstach, od triage'u e-maili po badania w zakresie cyberbezpieczeństwa.
Zrozumienie tego spektrum jest kluczowe dla bezpiecznego wdrożenia, jednak zaskakująco mało wiemy o tym, jak ludzie faktycznie korzystają z agentów w rzeczywistym świecie.
Większość zwrotów Claude Code jest krótka (mediana ~45 sekund). Ale najdłuższe zwroty pokazują, w jakim kierunku zmierza autonomia.
W ciągu trzech miesięcy czas trwania zwrotów w 99,9. percentylu niemal się podwoił, z poniżej 25 minut do ponad 45 minut. Ten wzrost jest płynny w różnych wersjach modelu.

W miarę zdobywania doświadczenia przez użytkowników, ich strategia nadzoru się zmienia.
Nowi użytkownicy zatwierdzają każdą akcję indywidualnie. Po 750 sesjach ponad 40% sesji jest w pełni automatycznie zatwierdzonych.

Jednak przerwy również wzrastają wraz z doświadczeniem. Nowi użytkownicy przerywają Claude Code w 5% przypadków, w porównaniu do 9% dla bardziej doświadczonych użytkowników.
Sugeruje to przesunięcie od zatwierdzania każdej akcji do delegowania i przerywania w razie potrzeby.

Claude Code zachęca również do nadzoru, zatrzymując się, aby zadawać pytania.
W przypadku złożonych zadań, Claude Code wstrzymuje się na wyjaśnienia ponad dwa razy częściej niż ludzie go przerywają. Szkolenie modeli do rozpoznawania niepewności jest ważnym, niedocenianym aspektem bezpieczeństwa.

Większość działań agentów w naszym API jest niskiego ryzyka. 73% wywołań narzędzi wydaje się mieć człowieka w pętli, a tylko 0,8% jest nieodwracalnych.
Jednak na granicy widzimy agentów działających w systemach bezpieczeństwa, transakcjach finansowych i wdrożeniach produkcyjnych (choć niektóre mogą być ocenami).

Inżynieria oprogramowania stanowi ~50% wywołań narzędzi agentowych w naszym API, ale zauważamy rosnące zastosowanie w innych branżach.
W miarę jak granice ryzyka i autonomii się rozszerzają, monitorowanie po wdrożeniu staje się niezbędne. Zachęcamy innych twórców modeli do rozszerzenia tych badań.

Centralną lekcją tej pracy jest to, że autonomia jest współtworzona przez model, użytkownika i produkt. Nie można jej w pełni scharakteryzować jedynie na podstawie ocen przed wdrożeniem.
Aby uzyskać pełne szczegóły oraz nasze zalecenia dla deweloperów i decydentów, zapraszamy do przeczytania bloga:
217
Najlepsze
Ranking
Ulubione
