低调飞行:一个 Mamba-2+MLA 混合体,*后训练*自 Llama 3。我们知道 GQA=>完整 MLA 是可行的。Kimi 已经证明你可以结合 MLA 和线性注意力(不过 KDA 比 Mamba2 更复杂),但他们是从头开始训练的。 这在技术上令人印象深刻。