我寫了一篇部落格文章,介紹我們如何建立一個基於 REPL 的自我測試子代理,將 Agent 3 的自主運行時間從 20 分鐘提升到 200 分鐘 :) 我們想要解決的主要問題是 LLM 生成的應用程式看起來像是可以運作,但實際上只是高保真模擬。
replit 正在開發可運行的應用程式,結果發現,賦予代理自我驗證的能力是提高代理自主性的一個關鍵解鎖。
透過為代理建立類似筆記本的介面,我們發現這解鎖了一種非常類似人類的迭代測試模式,這種模式靈活且具成本可擴展性,適合在生產環境中部署。
152