terbang di bawah radar: hibrida Mamba-2+MLA, *pasca-terlatih* dari Llama 3. Kami tahu GQA=>full MLA bisa dilakukan. Kimi telah membuktikan bahwa Anda dapat menggabungkan MLA dan perhatian linier (KDA lebih canggih daripada Mamba2), tetapi mereka berlatih dari awal. Ini secara teknis mengesankan.