通过经验合成扩展代理学习 📝: 通过使用推理 LLM 模拟 RL 的训练环境来扩展训练环境! 环境模型 + 重放缓冲区 + 新任务 = 适用于任何环境的廉价 RL! - 相较于非 RL 准备环境和多种模型家族有显著改善! - 在模拟到真实的 RL 设置中表现更好 → 高成本环境的热启动 🧵1/7