Agenci oprogramowania mogą się samodoskonalić poprzez samodzielną grę RL Przedstawiamy Self-play SWE-RL (SSR): szkolenie pojedynczego agenta LLM do samodzielnej gry między wstrzykiwaniem błędów a naprawą błędów, oparte na rzeczywistych repozytoriach, bez problemów lub testów oznaczonych przez ludzi. 🧵