软件代理可以通过自我对弈强化学习自我提升 介绍自我对弈软件工程强化学习(SSR):训练一个单一的LLM代理在真实世界的代码库中进行错误注入和错误修复的自我对弈,无需人工标记的问题或测试。 🧵