Software-Agenten können sich durch Selbstspiel-RL selbst verbessern Einführung von Self-play SWE-RL (SSR): Training eines einzelnen LLM-Agenten, der zwischen Fehlerinjektion und Fehlerbehebung im Selbstspiel wechselt, basierend auf realen Repositories, ohne menschlich gekennzeichnete Probleme oder Tests. 🧵