من الجنون أن هذا الاهتمام المحدود يعمل بشكل جيد جدا، فهم فقط يخلصون 50٪ من طبقات MLA في قاعدة LongCat-Flash في منتصف التدريب ويحصلون على نتائج مشابهة للنموذج الأصلي المعايرة هي اختيار طبقات MLA التي يتم تفريقها. LongCat-Flash لديه بنية طبقات "غريبة" (ليس بطريقة سيئة) حيث يوجد طبقتان من الانتباه في طبقة واحدة، ولا يوجد ذكر لمعالجة مختلفة لهذين الطبقتين، لذا أفترض أنهم يطبقون نفس العملية على كلتيهما. خطوة المعايرة هي: الإخراج = a_i · output_dense + (1 - a_i) · output_sparse وهم يقومون بالنزول التدرج على a_i (وهو لكل طبقة انتباه). إذا كان a_i مرتفعا => يجب أن تكون هذه الطبقة كثيفة، وإذا لم يكن كذلك يمكنك تقليصها. بهذه الطريقة يتم تقليل 50٪ من الطبقات (للأسف لا نملك توزيع الطبقات المتفرقة). هذه الخطوة في المعايرة لها تأثير كبير على العمر الطويل الانتباه المتفرق بسيط جدا أيضا، ثابت وغير واع للسياق مثل deepseek DSA/NSA أو MiniCPM InfiLLMv2، إنه نافذة منزلقة تحتوي على 8 كتل تحتوي على 128 رمزا (أي حجم النافذة 1024)، أول 128 رمزا وآخر 896 رمزا فضولي إذا كانت نماذج @Meituan_LongCat المستقبلية ستستخدم هذا في الإنتاج وهل هو قوي بالنسبة للواقع!