تقديم بقايا الانتباه: إعادة التفكير في التجميع العميق. لطالما اعتمدت الوصلات المتبقية على التراكم الثابت والموحد. مستوحى من ازدواجية الزمن والعمق، نقدم بقايا الانتباه، حيث نستبدل التكرار العميق القياسي بالانتباه المكتسب والمعتمد على الإدخال على الطبقات السابقة. 🔹 يمكن الشبكات من استرجاع التمثيلات السابقة بشكل انتقائي، مما يقلل بشكل طبيعي من التخفيف ونمو الحالة المخفية. 🔹 يقدم Block AttnRes، حيث يقسم الطبقات إلى كتل مضغوطة لجعل الانتباه عبر الطبقات عمليا على نطاق واسع. 🔹 يعمل كبديل فعال للإدخال العشوائي، حيث يظهر ميزة حسابية 1.25x مع عبء زمن استجابة للاستنتاج ضئيلة (<2٪). 🔹 تم التحقق منه على بنية Kimi Linear (إجمالي 48 بيلايت، 3 مليار معلمة نشطة)، ويوفر مكاسب أداء مستمرة في مرحلة ما بعد التدفق. 🔗التقرير الكامل:
تكشف تجارب قانون التوسع عن ميزة حسابية ثابتة تبلغ 1.25× عبر أحجام نماذج مختلفة.
يوضح تحليل ديناميكيات التدريب كيف أن AttnRes يخفف بشكل طبيعي من نمو حجم الحالة المخفية وينتج توزيعا أكثر تدرجا عبر العمق.
‏‎86‏