مرحبا جميعا، شكرا على اهتمامكم حتى الآن. إليك شرحا لما قمنا به ملخص: هذا هو PPO بالإضافة إلى الخلايا العصبية الحية في حلقة مغلقة. السياسة "تتحدث" عبر التحفيز، والخلايا "ترد" عبر الارتفاعات، ودالة القيمة توفر إشارة مفاجئة أرد عليها من خلال التحفيز حتى تتمكن السياسة من التواصل حول مدى جودة أو سوء الفعل. قبل DOOM، كان هناك لعبة بونغ، التي كانت تعتمد على الخرائط اليدوية. في بيئة صغيرة، يمكنك تحديد معنى التغذية الراجعة يدويا والحفاظ على اتساقها. مع تعقيد البيئة، تصبح الإشارات المصنوعة يدويا أصعب وغير متسقة. عدد السياقات التي يجب أن تعني فيها الإشارة نفس الشيء ينفجر، وتبدأ في إعادة اختراع الثبات يدويا. DOOM ثلاثي الأبعاد وتركيبي. المشي + الدوران + التسديد يمكن أن يحدث في نفس الوقت. لا يمكن أن يكون التعيين الصحيح كومة من القواعد، لذا كنت بحاجة إلى مولد إشارات يبقى متماسكا مع تغير السلوك. لهذا السبب استخدمت PPO. الارتفاعات غير قابلة للاشتقاق، ودالة القيمة في PPO تمنحنا طريقة لتعريف "مفاجأة" مشتركة للسياسة والخلايا لتحويلها إلى لغة تغذية راجعة عبر الإنترنت. السياسة لا تصدر بشكل مباشر "المضي قدما" أو "إطلاق النار". السياسة تنتج تحفيزا. تستجيب الخلايا بارتفاعات مشابك. هذه المسامير هي التي تحدد أحداث اللعبة، عبر قراءة خطية. بالإضافة إلى ذلك، دالة القيمة تعطيك تقديرا إلكترونيا للعائد، مما يتيح لك حساب المفاجأة كخطأ في التنبؤ. استنادا إلى مفاجأة الحركة هذه، نقوم بضبط التردد والسعة وفقا لمخططات التغذية الراجعة المختلفة لدينا. على سبيل المثال، إذا كان الفعل موجبا وكانت دالة القيمة تقول "مفاجأة عالية"، فإننا نقلل من تكرار التغذية الراجعة الإيجابية لذلك الفعل، مما يجعل الأفعال أكثر "قابلية للتنبؤ" وهو ما تفضله الخلايا.