Новое исследование Anthropic: Измерение автономии AI-агентов на практике. Мы проанализировали миллионы взаимодействий между Claude Code и нашим API, чтобы понять, сколько автономии люди предоставляют агентам, где они развернуты и какие риски они могут представлять. Читать далее:
Агенты уже развертываются в различных контекстах, от сортировки электронной почты до исследований в области кибербезопасности. Понимание этого спектра критически важно для безопасного развертывания, однако мы знаем удивительно мало о том, как люди на самом деле используют агентов в реальном мире.
Большинство поворотов Claude Code короткие (медиана ~45 секунд). Но самые длинные повороты показывают, куда движется автономия. За три месяца продолжительность поворота на 99,9-м процентиле почти удвоилась, с менее чем 25 минут до более чем 45 минут. Этот рост плавный на протяжении всех релизов модели.
По мере накопления опыта у пользователей меняется стратегия контроля. Новые пользователи одобряют каждое действие по отдельности. К 750 сессиям более 40% сессий полностью одобряются автоматически.
Но количество прерываний также увеличивается с опытом. Новые пользователи прерывают Claude Code в 5% случаев, по сравнению с 9% для более опытных пользователей. Это предполагает переход от одобрения каждого действия к делегированию и прерыванию по мере необходимости.
Claude Code также поощряет контроль, останавливаясь, чтобы задать вопросы. При выполнении сложных задач Claude Code останавливается для уточнения более чем в два раза чаще, чем люди его прерывают. Обучение моделей распознавать неопределенность является важным, недооцененным свойством безопасности.
Большинство действий агентов в нашем API имеют низкий риск. 73% вызовов инструментов, похоже, имеют человека в процессе, и только 0,8% являются необратимыми. Но на переднем крае мы видим, как агенты действуют в системах безопасности, финансовых транзакциях и производственных развертываниях (хотя некоторые могут быть оценочными).
Программная инженерия составляет около 50% вызовов инструментов агентного типа в нашем API, но мы наблюдаем растущее использование в других отраслях. По мере расширения границ риска и автономии мониторинг после развертывания становится необходимым. Мы призываем других разработчиков моделей продолжать это исследование.
Центральный урок этой работы заключается в том, что автономия создается совместно моделью, пользователем и продуктом. Ее нельзя полностью охарактеризовать только на основе оценок до развертывания. Для получения полной информации и наших рекомендаций для разработчиков и политиков смотрите блог:
344