Penelitian Antropik Baru: Mengukur otonomi agen AI dalam praktik. Kami menganalisis jutaan interaksi di Claude Code dan API kami untuk memahami seberapa banyak otonomi yang diberikan orang kepada agen, di mana mereka ditempatkan, dan risiko apa yang mungkin ditimbulkannya. Baca lebih lanjut:
Agen sudah digunakan di seluruh konteks yang berkisar dari triase email hingga penelitian keamanan siber. Memahami spektrum ini sangat penting untuk penerapan yang aman, namun kita tahu sedikit tentang bagaimana orang benar-benar menggunakan agen di dunia nyata.
Sebagian besar giliran Claude Code pendek (median ~45 detik). Tetapi belokan terpanjang menunjukkan ke mana arah otonomi. Dalam tiga bulan, durasi giliran persentil ke-99 hampir dua kali lipat, dari di bawah 25 menit menjadi lebih dari 45 menit. Pertumbuhan ini lancar di seluruh rilis model.
Seiring bertambahnya pengalaman pengguna, strategi pengawasan mereka berubah. Pengguna baru menyetujui setiap tindakan satu per satu. Pada 750 sesi, lebih dari 40% sesi sepenuhnya disetujui secara otomatis.
Tetapi interupsi juga meningkat seiring dengan pengalaman. Pengguna baru mengganggu Claude Code dalam 5% giliran, dibandingkan dengan 9% untuk pengguna yang lebih berpengalaman. Ini menunjukkan pergeseran dari menyetujui setiap tindakan ke mendelegasikan dan menyela saat diperlukan.
Claude Code juga mendorong pengawasan dengan berhenti untuk mengajukan pertanyaan. Pada tugas-tugas yang kompleks, Claude Code berhenti sejenak untuk klarifikasi lebih dari dua kali lebih sering daripada manusia memotongnya. Model pelatihan untuk mengenali ketidakpastian adalah properti keselamatan yang penting dan kurang dihargai.
Sebagian besar tindakan agen di API kami berisiko rendah. 73% panggilan alat tampaknya memiliki manusia dalam lingkaran, dan hanya 0,8% yang tidak dapat diubah. Tetapi di perbatasan, kami melihat agen yang bertindak pada sistem keamanan, transaksi keuangan, dan penyebaran produksi (meskipun beberapa mungkin eval).
Rekayasa perangkat lunak membentuk ~50% panggilan alat agen pada API kami, tetapi kami melihat penggunaan yang muncul di industri lain. Seiring dengan perluasan batas risiko dan otonomi, pemantauan pasca-penerapan menjadi penting. Kami mendorong pengembang model lain untuk memperluas penelitian ini.
Pelajaran sentral dari karya ini adalah bahwa otonomi dibangun bersama oleh model, pengguna, dan produk. Ini tidak dapat sepenuhnya dicirikan oleh evaluasi pra-penyebaran saja. Untuk detail lengkap, dan rekomendasi kami kepada pengembang dan pembuat kebijakan, lihat blog:
202