letěl pod radarem: hybrid Mamba-2+MLA, *po výcviku* z Llama 3. Věděli jsme, že GQA=>plné MLA je možné. Kimi dokázal, že lze kombinovat MLA a lineární pozornost (KDA je ale sofistikovanější než Mamba2), ale trénovali od nuly. To je technicky působivé.