vliegt onder de radar: een Mamba-2+MLA hybride, *post-getraind* van Llama 3. We wisten dat GQA=>volledige MLA haalbaar is. Kimi heeft bewezen dat je MLA en lineaire aandacht kunt combineren (KDA is echter geavanceerder dan Mamba2), maar zij hebben vanaf nul getraind. Dit is technisch indrukwekkend.