Agentes de software podem autoaperfeiçoar-se através de RL de autojogo Apresentando o SSR (Self-play SWE-RL): treinar um único agente LLM para autojogar entre injeção de bugs e reparação de bugs, fundamentado em repositórios do mundo real, sem problemas ou testes rotulados por humanos. 🧵