طارت دون أن يلاحظها أحد الأنظار: هجين مامبا-2+MLA، *تم تدريبه بعد التدريب* من لاما 3. كنا نعلم أن GQA=>MLA الكامل ممكن. أثبت كيمي أنه يمكنك دمج MLA والانتباه الخطي (KDA أكثر تطورا من Mamba2)، لكنهم تدربوا من الصفر. هذا مثير للإعجاب من الناحية التقنية.