przeszło niezauważone: hybryda Mamba-2+MLA, *po treningu* z Llama 3. Wiedzieliśmy, że GQA=>pełne MLA jest wykonalne. Kimi udowodnił, że można połączyć MLA i liniowe uwagi (KDA jest bardziej zaawansowane niż Mamba2), ale trenowali od zera. To jest technicznie imponujące.