Los agentes de software pueden auto-mejorar mediante el juego propio RL Presentamos Self-play SWE-RL (SSR): entrenar a un solo agente LLM para que juegue por sí mismo entre la inyección y la reparación de errores, basado en repositorios del mundo real, sin problemas ni pruebas etiquetadas por humanos. 🧵