Agen perangkat lunak dapat meningkatkan diri melalui RL putar mandiri Memperkenalkan Self-play SWE-RL (SSR): melatih satu agen LLM untuk bermain sendiri antara injeksi bug dan perbaikan bug, didasarkan pada repositori dunia nyata, tidak ada masalah atau pengujian berlabel manusia. 🧵