قراءة سريعة لورقة Deepseek الجديدة حول Hyper-Connections Boundtrained Manifold: - تريد زيادة حجم البقايا من 1×C إلى n×C (n تدفقات بدلا من 1). تحديث متبقي سابق: x' = x + طبقة(x). اجعل x هو n×C، واستخدم x' = طبقة Ax + B (Cx) بدلا من ذلك. A وB وC كلها تعتمد على x وهي مصفوفات صغيرة (n×n، n×1، n×1). يبدو أن A هو الأكثر تأثيرا. هذه هي الاتصالات الفائقة (HC). - HC تواجه نفس المشكلة مثل أنظمة التعديل المتبقية الأخرى - في النهاية ينفجر حاصل ضرب مصفوفات A المتعلمة (على طول مسار الهوية) أو يختفي. - لإصلاح ذلك، يتم إسقاط مصفوفات A على متعدد الوجه بيركهوف (كلمات أبسط: تحويله، بعد الخبرة لجعل العناصر موجبة، إلى مصفوفة تصبح مجموع صفوفها ومجموع أعمودها 1 - تسمى مصفوفة عشوائية مزدوجة). هذا له خصائص جميلة - فجرائد هذه الأنواع من المصفوفات لا تزال تحتوي على مجموع الصف والعمود 1 (بسبب الإغلاق)، لذا لا تنفجر الأشياء (الحد الطيفي)، والثابت هو أن مجموع الأوزان عبر التيارات هو 1. بالنسبة ل n = 1، يصبح هذا التيار المتبقي القياسي، وهذا أمر جيد. طريقة تحويلهم بسيطة - بدلا من ذلك قسموا الصفوف والأعمدة على مجموع الصفوف والعمود على التوالي لمدة 20 تكرارا (يتقاربون إلى المصفوفة المطلوبة مع التكرار الذي يصل إلى اللانهاية). وجدوا أن 20 كافية للتمرير للأمام والخلف (عبر 60 طبقة، الحد الأقصى للكسب الخلفي هو 1.6 مقابل 3000 من HC العادي، و1.6 ليس مختلفا كثيرا عن 1). - تركيب هذه المصفوفات (الغلاف المحدب لجميع مصفوفات التبديل) يؤدي إلى خلط المعلومات مع زيادة مؤشر الطبقات، وهو عنصر حدسي جيد ويظهر بوضوح في مصفوفة المركب الخاصة بها ل 60 طبقة. أعتقد أننا نحصل بشكل عام على مجموع موزون من المسارات المتبقية (عند التفكير في التدرجات)، حيث أن المسارات القابلة للمجموعات منطقيا لها أوزان تجمع 1. النهج المبدئي إلى حد ما في رأيي، يجعل المكاسب (للأمام والخلف) مستقرة جدا. - شيء مثير للاهتمام يجب ملاحظته - هناك الكثير من الخلط الشبيه ب "التجمع" في النصف الأول مقارنة بالنصف الثاني من الطبقات. النصف الثاني من الطبقات يعالج القنوات المختلفة بدقة ووضوح أكثر من النصف الأول، وهذا بديهي جدا. - كما يغيرون معامل B و C (سيجمويد بدلا من tanh، لتجنب تغيير الإشارات على الأرجح، وعامل 2 قبل B، أعتقد للحفاظ على متوسط المضاعف المتبقي، C لا يحتاج ذلك لأن الإدخال معياري مسبقا على أي حال). - تحسينات أنظمة رائعة لجعل هذه العملية سريعة - يقومون بدمج النواة، وإعادة الحساب في تمرير التمرير العكسي mHC، وحتى تعديل DualPipe (تنفيذ التوازي في خطوط الأنابيب). - فقط 6.7٪ من التكاليف التشغيلية في التدريب عندما يكون n = 4، وتنخفض الخسارة بمقدار 0.02 وتحسن عبر المعايير المعيارية.