Yazılım ajanları kendi kendine oynatma RL ile kendini geliştirebilir Self-Play SWE-RL (SSR) tanıtımı: Tek bir LLM ajanını, hata enjeksiyonu ile hata onarımı arasında kendi kendine oynamak için eğitmek, gerçek dünya depolarına dayanmak, insan etiketi sorunları veya testler olmadan. 🧵