lensi huomaamatta: Mamba-2+MLA-hybridi, *jälkikoulutettu* Llama 3:sta. Tiesimme, että GQA=>täysi MLA on mahdollista. Kimi on osoittanut, että MLA:n ja lineaarisen tarkkaavaisuuden yhdistäminen (KDA on kuitenkin kehittyneempi kuin Mamba2), mutta he harjoittelivat alusta asti. Tämä on teknisesti vaikuttavaa.