Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Новое исследование Anthropic: Измерение автономии AI-агентов на практике.
Мы проанализировали миллионы взаимодействий между Claude Code и нашим API, чтобы понять, сколько автономии люди предоставляют агентам, где они развернуты и какие риски они могут представлять.
Читать далее:
Агенты уже развертываются в различных контекстах, от сортировки электронной почты до исследований в области кибербезопасности.
Понимание этого спектра критически важно для безопасного развертывания, однако мы знаем удивительно мало о том, как люди на самом деле используют агентов в реальном мире.
Большинство поворотов Claude Code короткие (медиана ~45 секунд). Но самые длинные повороты показывают, куда движется автономия.
За три месяца продолжительность поворота на 99,9-м процентиле почти удвоилась, с менее чем 25 минут до более чем 45 минут. Этот рост плавный на протяжении всех релизов модели.

По мере накопления опыта у пользователей меняется стратегия контроля.
Новые пользователи одобряют каждое действие по отдельности. К 750 сессиям более 40% сессий полностью одобряются автоматически.

Но количество прерываний также увеличивается с опытом. Новые пользователи прерывают Claude Code в 5% случаев, по сравнению с 9% для более опытных пользователей.
Это предполагает переход от одобрения каждого действия к делегированию и прерыванию по мере необходимости.

Claude Code также поощряет контроль, останавливаясь, чтобы задать вопросы.
При выполнении сложных задач Claude Code останавливается для уточнения более чем в два раза чаще, чем люди его прерывают. Обучение моделей распознавать неопределенность является важным, недооцененным свойством безопасности.

Большинство действий агентов в нашем API имеют низкий риск. 73% вызовов инструментов, похоже, имеют человека в процессе, и только 0,8% являются необратимыми.
Но на переднем крае мы видим, как агенты действуют в системах безопасности, финансовых транзакциях и производственных развертываниях (хотя некоторые могут быть оценочными).

Программная инженерия составляет около 50% вызовов инструментов агентного типа в нашем API, но мы наблюдаем растущее использование в других отраслях.
По мере расширения границ риска и автономии мониторинг после развертывания становится необходимым. Мы призываем других разработчиков моделей продолжать это исследование.

Центральный урок этой работы заключается в том, что автономия создается совместно моделью, пользователем и продуктом. Ее нельзя полностью охарактеризовать только на основе оценок до развертывания.
Для получения полной информации и наших рекомендаций для разработчиков и политиков смотрите блог:
344
Топ
Рейтинг
Избранное
