يشعر الكثير من الناس بالارتباك بسبب عودة Minimax الأخيرة إلى الاهتمام الكامل - خاصة أنها كانت أول محور واسع النطاق نحو الانتباه الخطي الهجين - ومن خلال اعتماد Kimi اللاحق للمتغيرات الخطية الهجينة (بالإضافة إلى المحاولات السابقة من قبل Qwen3-Next ، أو Qwen3.5). أنا في الواقع أقدر انفتاح Minimax هنا: لقد اعترفوا بالتحديات والأسف لانتباه الخط الهجين أو النافذة المنزلقة في مهام التفكير متعددة القفزات ، والتي لن تقولها العديد من المختبرات بصوت عال. ومع ذلك ، قد لا يكون "الندم" سيئا كما يبدو. استخدم Minimax متغيرا بسيطا جدا للانتباه الخطي (يرجع ذلك إلى حد كبير إلى عدم كفاية التقييم في ذلك الوقت) ، لذلك ربما كانت فجوة الأداء مبالغ فيها. كما بدت استراتيجية التدريب المسبق المستمر (أي التحول من الاهتمام العالمي إلى انتباه النافذة المنزلقة الهجينة) دون المستوى الأمثل تماما. علاوة على ذلك ، لا يزال بإمكان الانتباه الخطي الهجين أن يعمل بقوة كبيرة على جميع المعايير تقريبا باستثناء التفكير متعدد القفزات. إذا كان من الممكن الحفاظ على انخفاض الأداء في التفكير متعدد القفزات صغيرا بما يكفي للتداول من أجل كفاءة استدلال أفضل وكفاءة بيانات ، فلا يزال لدى الاهتمام الخطي الهجين مجال كبير للنمو. لا تزال طبقات التعقيد الخطي الأفضل تستحق الاستكشاف ، خاصة مع تحسين البنية التحتية من أطر مثل vLLM و SGLang. بعد كل شيء ، لا نريد أن تكون نماذجنا الفاعلة مقيدة إلى الأبد بطول السياق - وهذا قيد سيتعين علينا التغلب عليه عاجلا أم آجلا