Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nghiên cứu mới của Anthropic: Đo lường sự tự chủ của tác nhân AI trong thực tế.
Chúng tôi đã phân tích hàng triệu tương tác trên Claude Code và API của chúng tôi để hiểu mức độ tự chủ mà mọi người cấp cho các tác nhân, nơi chúng được triển khai và những rủi ro mà chúng có thể gây ra.
Đọc thêm:
Các tác nhân đã được triển khai trên nhiều bối cảnh khác nhau, từ phân loại email đến nghiên cứu an ninh mạng.
Hiểu rõ về phổ này là rất quan trọng để triển khai an toàn, tuy nhiên chúng ta biết surprisingly ít về cách mà mọi người thực sự sử dụng các tác nhân trong thế giới thực.
Hầu hết các lượt mã Claude đều ngắn (trung vị ~45 giây). Nhưng những lượt dài nhất cho thấy hướng đi của sự tự chủ.
Trong ba tháng, thời gian lượt ở phần trăm 99.9 gần như đã tăng gấp đôi, từ dưới 25 phút lên hơn 45 phút. Sự tăng trưởng này diễn ra một cách mượt mà qua các phiên bản mô hình.

Khi người dùng có kinh nghiệm, chiến lược giám sát của họ thay đổi.
Người dùng mới phê duyệt từng hành động một. Đến 750 phiên, hơn 40% các phiên được tự động phê duyệt hoàn toàn.

Nhưng sự gián đoạn cũng tăng lên theo kinh nghiệm. Người dùng mới gián đoạn Claude Code trong 5% số lượt, so với 9% đối với những người dùng có kinh nghiệm hơn.
Điều này gợi ý một sự chuyển đổi từ việc phê duyệt mỗi hành động sang ủy quyền và gián đoạn khi cần thiết.

Claude Code cũng khuyến khích việc giám sát bằng cách dừng lại để đặt câu hỏi.
Trong các nhiệm vụ phức tạp, Claude Code tạm dừng để làm rõ nhiều hơn gấp đôi so với việc con người ngắt lời nó. Đào tạo các mô hình để nhận diện sự không chắc chắn là một thuộc tính an toàn quan trọng nhưng chưa được đánh giá cao.

Hầu hết các hành động của tác nhân trên API của chúng tôi có rủi ro thấp. 73% các cuộc gọi công cụ dường như có sự can thiệp của con người, và chỉ 0,8% là không thể đảo ngược.
Nhưng ở ranh giới, chúng tôi thấy các tác nhân đang hoạt động trên các hệ thống bảo mật, giao dịch tài chính và triển khai sản xuất (mặc dù một số có thể là đánh giá).

Kỹ thuật phần mềm chiếm khoảng ~50% số lần gọi công cụ agentic trên API của chúng tôi, nhưng chúng tôi thấy sự sử dụng mới nổi trong các ngành khác.
Khi ranh giới của rủi ro và sự tự chủ mở rộng, việc giám sát sau triển khai trở nên thiết yếu. Chúng tôi khuyến khích các nhà phát triển mô hình khác mở rộng nghiên cứu này.

Một bài học trung tâm của công việc này là sự tự chủ được xây dựng đồng thời bởi mô hình, người dùng và sản phẩm. Nó không thể được mô tả đầy đủ chỉ bằng các đánh giá trước khi triển khai.
Để biết thêm chi tiết và các khuyến nghị của chúng tôi cho các nhà phát triển và nhà hoạch định chính sách, hãy xem blog:
351
Hàng đầu
Thứ hạng
Yêu thích
