Agenții software se pot auto-îmbunătăți prin auto-joc RL Prezentarea Self-play SWE-RL (SSR): antrenarea unui singur agent LLM să se joace singur între injectarea și repararea insectelor, bazat pe depozite reale, fără probleme sau teste etichetate ca oameni. 🧵