saya menulis posting blog tentang bagaimana kami membangun subagen pengujian mandiri berbasis REPL untuk beralih dari 20 menit -> 200 menit runtime otonom di Agen 3 :) hal utama yang ingin kami selesaikan adalah masalah LLM yang menghasilkan aplikasi yang terlihat seperti berfungsi tetapi sebenarnya hanya tiruan fidelitas tinggi
Replit dalam bisnis membuat aplikasi yang berfungsi dan ternyata memberi agen sarana untuk memverifikasi diri adalah salah satu kunci pembukaan kunci untuk otonomi yang lebih tinggi di agen
Dengan membangun antarmuka seperti notebook untuk agen, kami menemukan bahwa ini membuka mode pengujian berulang yang sangat mirip manusia yang fleksibel dan dapat diskalakan biaya untuk diterapkan dalam produksi
114