تقرير رائع من فريق كيمي: بقايا الانتباه وصلات متبقية جعلت المحولات العميقة قابلة للتدريب. لكنها أيضا تجبر نمو الحالة المخفية غير المنضبط مع العمق. يقترح هذا العمل بديلا أنظف. يقدم بقايا الانتباه، التي تستبدل تراكم البقايا الثابت بتركيز سوفتماكس مقارنة بمخرجات الطبقة السابقة. بدلا من جمع كل شيء بشكل أعمى، تسترجع كل طبقة بشكل انتقائي التمثيلات السابقة التي تحتاجها فعليا. للحفاظ على هذا التوسع العملي، يضيفون نسخة على مستوى الكتل تضغط الطبقات إلى ملخصات كتل، مما يستعيد معظم المكاسب مع تقليل تكلفة الأنظمة. لماذا يهم ذلك؟ المسارات المتبقية لم تتغير كثيرا عبر نماذج اللغة الكبيرة الحديثة، رغم أنها تحكم كيفية انتقال المعلومات عبر العمق. تظهر هذه الورقة أن جعل المزج يعتمد على المحتوى يحسن قوانين التكبير، ويطابق خط أساس مدرب بحسابات أكثر بمقدار 1.25 مرة، ويرفع GPQA-Diamond بمقدار +7.5 وHumanEval بنسبة +3.1، مع الحفاظ على الحمل الإضافي للاستدلال تحت 2٪. الورقة: تعلم كيفية بناء وكلاء ذكاء اصطناعي فعالين في أكاديميتنا: