透過經驗合成擴展代理學習 📝: 透過模擬推理 LLM 來擴展 RL 的訓練環境! 環境模型 + 重播緩衝區 + 新任務 = 任何環境的廉價 RL! - 相較於非 RL 準備環境和多個模型家族有強大的改進! - 在模擬到現實的 RL 設定中效果更佳 → 高成本環境的熱啟動 🧵1/7