Los agentes de software pueden auto-mejorarse a través de RL de auto-juego Presentando SWE-RL de auto-juego (SSR): entrenando a un único agente LLM para auto-jugar entre la inyección de errores y la reparación de errores, basado en repositorios del mundo real, sin problemas o pruebas etiquetados por humanos. 🧵