我写了一篇博客文章,讲述我们如何构建一个基于 REPL 的自我测试子代理,使 Agent 3 的自主运行时间从 20 分钟提升到 200 分钟 :) 我们想要解决的主要问题是 LLM 生成的应用程序看起来像是可以工作的,但实际上只是高保真模型。
replit 正在开发可工作的应用程序,结果发现赋予代理自我验证的能力是提高代理自主性的一项关键解锁。
通过为代理构建类似笔记本的界面,我们发现这解锁了一种非常类人化的迭代测试模式,这种模式灵活且具有成本可扩展性,适合在生产环境中部署。
140