المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 14
2022: إتقان أتاري باستخدام نماذج العالم المنفصل
(دريمر V2)
كان DreamerV1 يستهدف بشكل أساسي مهام التحكم المستمر، لكنه أظهر أيضا أساسيات اللعب لألعاب أتاري ومهام DMLab. حسن دريمر V2 النموذج ليحقق أداء متطورا على مجموعة أتاري المكونة من 55 لعبة، كما حل مهمة التحكم المستمر الأصعب.
هذه ورقة هندسية في حد كبير، وأنا هنا من أجلها! في الملحق ج يلخصون التغييرات التي أدت إلى تحسين الأداء، وأيضا (نادرا جدا في الأوراق!) قائمة بالأشياء التي جربوها ولم تنجح. تظهر الخوارزميات بكود فعلي بأسماء بدلا من الحروف اليونانية.
ومن الجدير بالذكر أنهم يستخدمون فقط صور رمادية بحجم 64x64 كمدخل، وهذه الصور تم تخفيض حجمها من دقة 84x84 الشائعة المستخدمة في DQN، لذا فهي ليست حتى صورة مثالية 64x64 من المصدر. هذه مدخلات ضبابية جدا للحصول على درجات جيدة كهذه. أنا فضولي لمعرفة ما إذا كان استخدام صور 128x128xRGB مع طبقة كونفورد إضافية سيحسن الأداء، أم أن التفاصيل الإضافية ستجعل تدريب نموذج العالم أصعب عليه.
أكبر تغيير لديهم كان استبدال الكامن الغاوسي على نمط VAE، والذي كان فقط 32 زوجا متوسطا/فار، بمتغيرات تصنيفية: 32 متغيرا من 32 فئة. ليس لديهم نظرية حاسمة لماذا هذا أفضل بكثير، لكنهم يقدمون عدة نظريات. كان من المثير للاهتمام مقارنة المزيد من الغاوسيين مع المخرجات الفئوية الأكبر.
التغيير الكبير الآخر في الخوارزميات كان "توازن KL"، أي استخدام معدل تعلم مختلف للأوزان السابقة واللاحقة، بحيث يتدرب المتنبئ أسرع من التمثيل. كان تحسين المفصل على ما يبدو مشكلة في V1.
واجه DreamerV1 صعوبة في الاستكشاف، ولا يزال يحتوي على حركة عشوائية في epsilon بالإضافة إلى سياسة الحركات العشوائية. نموذج التنظيم والديناميكية المحسنة ل V2 يسمح لهم بالتخلي عن العشوائية الإضافية والاعتماد فقط على السياسة.
هم يجرون تغييرات كبيرة في إعدادات الفقدان والتدريب في كوالالامبور لمهام التحكم المستمر مقابل التحكم المنفصل في أتاري.
كما قموا بتوسيع نطاق النماذج واستخدموا تفعيل ELU في كل مكان.
بروتوكول تقييم أتاري لديهم جيد: مساحة كاملة من الإجراءات مع تفعيل الإجراءات المثبتة. الدرجات مرتفعة بما يكفي ليوصوا بمقياس جديد: "متوسط الرقم القياسي المقتطع" – تطبيع الرقم القياسي البشري العالمي، والقص إذا كان أعلى منه، ثم أخذ متوسط جميع الألعاب. نتائج أتاري التاريخية في RL قورنت مع الدرجات "البشرية"، التي كانت في الأصل أشخاصا عشوائيين، ثم أصبحوا لاعبين محترفين، لكن بالنسبة للوكلاء الأقوياء في نظام إطارات 200M، فإن هذا المقياس القياسي المختصر له قيمة.
خلال التدريب، تم تخيل أكثر من 200 مليون إطار بيئة حقيقية، أو 50 مليون اختيار حركة مع action_repeat 4,468 مليار حالة كامنة، لما يقرب من 10 أضعاف الخبرة التي كان سيحصل عليها وكيل خال من النماذج.
تجربة البيئة الحقيقية تدرب على دفعات من 50 تسلسلا كل منها 50 خطوة. المشاهد مقيدة بعدم تجاوز حدود الحلقة.
عند تدريب دوال السياسة والقيمة، يتم تطبيق تسلسلات تخيلية على 15 خطوة.
القيم مدربة على MSE، وليست تصنيفية. تستخدم شبكة أهداف قيمة تقليدية، يتم تحديثها كل 100 خطوة تدرجية.
الأفضل
المُتصدِّرة
التطبيقات المفضلة
