Програмні агенти можуть самовдосконалюватися через самостійну гру в реальному житті Знайомимося з Self-play SWE-RL (SSR): навчання одного агента LLM самостійно працювати між ін'єкцією багів і ремонтом багів, базуючись на реальних репозиторіях, без проблем чи тестів, позначених людиною. 🧵