#PaperADay 15 2024: إتقان المجالات المتنوعة من خلال نماذج العالم (دريمرV3) يطبق أحدث نموذج دريمر على أكثر من 150 مهمة متنوعة، ويحصل على أحدث الدرجات في العديد منها، ولكن الأهم من ذلك، يطبقه على تعدين الألماس في ماينكرافت، وهو تحد أصعب بكثير من معظم مهام التعلم الحقيقي. ذكرت الصحافة أن هذا هو "الذكاء الاصطناعي يحل ماينكرافت"، وهذا مضلل. بعد 30 مليون (20 هرتز) خطوة بيئية (17 يوما متواصلة)، استخرج الألماس. على عكس ألعاب أتاري التي تلعب بنفس البكسلات وأدوات التحكم التي يستخدمها الإنسان، هذه واجهة معدلة مع عرض المخزون والإحصائيات مباشرة على النموذج، ومساحة أكشن تصنيفية – لا يوجد تحريك الفأرة حول شاشات الجرد والصناعة. كان يجب تعديل التعدين ليصبح كسر فوري بدلا من الضغط المعتاد لعدة ثوان على زر التعدين لأن دريمر يستخدم سياسات فعل عشوائية، والتي تكاد تكون غير قادرة على الضغط المستمر على زر لمئات الإطارات المتتالية. وبالمثل، كان القفز يتطلب عدة إطارات من الإمساك، لذا تم تصميمه فوريا. ومع ذلك، كانت هذه هي المرة الأولى التي يصل فيها وكيل RL إلى هذا الحد دون استخدام التعلم المقلد من اللاعبين البشر، وتم إجراء تحسينات كبيرة على جميع الاختبارات الأخرى أيضا. كانت التحسينات في الغالب جهدا هندسيا، وليس هياكل معمارية مختلفة تماما. فاتني قسم "الأشياء التي جربناها ولم تنجح" في الجزء الثاني. مع هذه التغييرات، يمكنهم توسيع النموذج بشكل مربح من 12 مليون إلى 400 مليون معلم، ونسبة إعادة التشغيل من 1 إلى 64 ضعف معدل البيئة. مصطلحات الورقة الآن أقرب إلى أوراق أخرى في التعلم الواقعي: "متنبئ مستمر" بدلا من "متنبئ خصم" واستخدام Pi لشبكات السياسات. تم تحسين المخططات. مع النماذج المدربة بشكل مشترك، هناك توتر بين رغبة نموذج التمثيل في التدهور لتسهيل التنبؤ وبين فائدته في التنبؤ بالحالات التالية. إحدى الحيل التي يستخدمونها هي "القطع المجانية"، حيث تقلص الخسائر عند الانخفاض تحت مستوى معين حتى لا يحاولوا التقدم حتى الصفر، مما يسمح للقوة المعادية بالتقدم دون مقاومة. بالنسبة للتوزيعات التصنيفية، يستخدمون تنعيم تسميات بنسبة 1٪ على التوزيعات التصنيفية لتجنب الارتفاعات الحادة في فقدان كوالالمبور. يسمون هذا "يوني ميكس" لخلط توزيع موحد فوق التوزيع الموجود. هذا غير قياسي (مقارنة بتلطيف التسميات)، لكنه ربما مصطلح أفضل. تستخدم قيمة تصنيفية ثنائية الساخنة بدلا من الانحدار المتوسط للنقاد، ولكن على عكس معظم التطبيقات الأخرى، تستخدم حاويات متباعدة أسيا بدلا من المسافة الخطية بحيث يمكنها تغطية عدة مراتب حجم. يعرفون الدوال symlog() / symexp() للسماح للشبكات بالتعامل مع قيم متباينة على نطاق واسع في النطاقات الموجبة والسالبة. ويقال إنه يعمل بشكل أفضل من التحويل غير الخطي المشابه المستخدم في MuZero وMuesli. يبدو أن هذا تطلب بعض الحذر: "لحساب التنبؤ المتوقع لتوزيع السوفتماكس تحت صناديق تمتد عبر عدة مرتبة حجم، فإن ترتيب الجمع مهم، ويجب جمع الحاويات الموجبة والسالبة بشكل منفصل، من صناديق صغيرة إلى كبيرة، ثم إضافتها." الطبقة النهائية من نماذج المكافأة والناقد يتم تهيئتها صفريا بدلا من تهيئتها عشوائيا لتجنب القيم الكبيرة الزائفة المحتملة في بداية التدريب. النموذج المستهدف لدالة القيمة أصبح الآن EMA بدلا من نسخة دورية. للحصول على نفس مقدار الاستكشاف من تدرج السياسة بغض النظر عن حجم دوال القيمة، يقومون بمقياس العوائد (المتباعدة بشكل أسي، لذا قد تكون كبيرة جدا) إلى نطاق محدود، مع الأخذ في الاعتبار فقط نطاق 5٪ إلى 95٪ الذي يرى لاستبعاد القيم الشاذة. ...