Programvareagenter kan forbedre seg selv via egenspill i sanntid Vi introduserer Self-play SWE-RL (SSR): å trene en enkelt LLM-agent til å spille på egenhånd mellom bug-injeksjon og bug-reparasjon, forankret i virkelige arkiver, uten menneskemerkede problemer eller tester. 🧵