Učení škálovacích agentů prostřednictvím syntézy zkušeností 📝: Škálování školicích prostředí pro RL jejich simulací s racionálními LLM! Modely prostředí + Replay-buffer + Nové úkoly = levné RL pro všechna prostředí! - Výrazná vylepšení oproti prostředím, která nejsou připravena na RL, a více modelovým řadám! - Funguje lépe v nastavení sim-2-real RL → Warm-start pro prostředí s vysokými náklady 🧵1/7