Skalering av agentlæring via opplevelsessyntese 📝: Skalering av treningsmiljøer for RL ved å simulere dem med resonnerende LLM-er! Miljømodeller + Replay-buffer + Nye oppgaver = billig RL for alle miljøer! - Sterke forbedringer i forhold til ikke-RL-klare miljøer og flere modellfamilier! - Fungerer bedre i sim-2-real RL-innstillinger → varmstart for dyre miljøer 🧵1/7