Deneyim sentezi yoluyla aracı öğrenimini ölçeklendirme 📝: RL için eğitim ortamlarını akıl yürütme LLM'leri ile simüle ederek ölçeklendirme! Ortam modelleri + Tekrar arabelleği + Yeni görevler = her ortam için ucuz RL! - RL'ye hazır olmayan ortamlara ve çoklu model ailelerine göre güçlü iyileştirmeler! - Sim-2-real RL ayarlarında daha iyi çalışır → Yüksek maliyetli ortamlar için sıcak başlangıç 🧵1/7