unter dem Radar geflogen: ein Mamba-2+MLA-Hybrid, *post-trainiert* von Llama 3. Wir wussten, dass GQA=>vollständiges MLA machbar ist. Kimi hat bewiesen, dass man MLA und lineare Aufmerksamkeiten kombinieren kann (KDA ist jedoch raffinierter als Mamba2), aber sie wurden von Grund auf trainiert. Das ist technisch beeindruckend.