Agentes de software podem se auto-aprimorar via auto-jogo RL Apresentando o Self-play SWE-RL (SSR): treinando um único agente LLM para se auto-jogar entre injeção e reparo de bugs, baseado em repositórios do mundo real, sem problemas ou testes rotulados por humanos. 🧵