Pembelajaran Agen Penskalaan melalui Sintesis Pengalaman 📝: Menskalakan lingkungan pelatihan untuk RL dengan mensimulasikannya dengan LLM penalaran! Model lingkungan + Replay-buffer + Tugas baru = RL murah untuk lingkungan apa pun! - Peningkatan yang kuat dibandingkan lingkungan yang tidak siap RL dan beberapa keluarga model! - Bekerja lebih baik dalam pengaturan sim-2-real RL → Warm-start untuk lingkungan berbiaya tinggi 🧵1/7