توسيع نطاق تعلم الوكيل من خلال توليف الخبرة 📝: توسيع نطاق بيئات التدريب ل RL من خلال محاكاتها باستخدام LLMs المنطقي! نماذج البيئة + إعادة التشغيل + مهام جديدة = RL رخيصة لأي بيئات! - تحسينات قوية على البيئات غير الجاهزة ل RL وعائلات النماذج المتعددة! - يعمل بشكل أفضل في إعدادات sim-2-real RL → التشغيل الدافئ للبيئات عالية التكلفة 🧵1/7