Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Studi skala besar pertama tentang agen AI yang benar-benar berjalan dalam produksi.
Hype mengatakan agen mengubah segalanya. Data menceritakan kisah yang berbeda.
Para peneliti mensurvei 306 praktisi dan melakukan 20 studi kasus mendalam di 26 domain. Apa yang mereka temukan menantang asumsi umum tentang bagaimana agen produksi dibangun.
Kenyataannya: agen produksi sengaja sederhana dan dibatasi ketat.
1) Pola & Keandalan
- 68% melakukan paling banyak 10 langkah sebelum memerlukan intervensi manusia.
- 47% menyelesaikan kurang dari 5 langkah.
- 70% mengandalkan permintaan model siap pakai tanpa penyetelan apa pun.
- 74% terutama bergantung pada evaluasi manusia.
Tim sengaja menukar otonomi untuk keandalan.
Mengapa kendala? Keandalan tetap menjadi tantangan utama yang belum terpecahkan. Praktisi tidak dapat memverifikasi kebenaran agen dalam skala besar. Tolok ukur publik jarang berlaku untuk tugas produksi khusus domain. 75% tim yang diwawancarai mengevaluasi tanpa tolok ukur formal, mengandalkan pengujian A/B dan umpan balik pengguna langsung sebagai gantinya.
2) Pemilihan Model
Pola pemilihan model mengejutkan para peneliti. 17 dari 20 studi kasus menggunakan model perbatasan sumber tertutup seperti Claude Sonnet 4, Claude Opus 4.1, dan GPT o3. Adopsi sumber terbuka jarang terjadi dan didorong oleh kendala tertentu: beban kerja volume tinggi di mana biaya inferensi menjadi mahal, atau persyaratan peraturan yang mencegah berbagi data dengan penyedia eksternal. Bagi sebagian besar tim, biaya runtime dapat diabaikan dibandingkan dengan ahli manusia yang ditambah oleh agen.
3) Kerangka Kerja Agen
Adopsi kerangka kerja menunjukkan perbedaan yang mencolok. 61% responden survei menggunakan kerangka kerja pihak ketiga seperti LangChain/LangGraph. Namun, 85% tim yang diwawancarai dengan penerapan produksi membangun implementasi khusus dari awal. Alasannya: loop agen inti mudah diterapkan dengan panggilan API langsung. Tim lebih memilih perancah minimal yang dibuat khusus daripada lapisan kembung dan abstraksi dependensi.
4) Aliran Kontrol Agen
Arsitektur produksi lebih menyukai alur kerja statis yang telah ditentukan sebelumnya daripada otonomi terbuka. 80% studi kasus menggunakan aliran kontrol terstruktur. Agen beroperasi dalam ruang aksi yang terbatas dengan baik daripada menjelajahi lingkungan secara bebas. Hanya satu kasus yang memungkinkan eksplorasi tanpa batasan, dan sistem itu berjalan secara eksklusif di lingkungan kotak pasir dengan verifikasi CI/CD yang ketat....

Teratas
Peringkat
Favorit
