エクスペリエンス合成によるエージェント学習のスケーリング 📝: 推論LLMでシミュレーションすることでRLのトレーニング環境をスケーリング! 環境モデル + リプレイバッファ + 新しいタスク = あらゆる環境に対応する安価な RL! - RL対応ではない環境や複数のモデルファミリーよりも大幅に改善されています。 - sim-2-real RL 設定でより適切に動作→ 高コスト環境向けのウォームスタート 🧵1/7