低調進行:一個 Mamba-2+MLA 混合體,*後訓練*自 Llama 3。我們知道 GQA=>完整 MLA 是可行的。Kimi 已經證明可以結合 MLA 和線性注意力(不過 KDA 比 Mamba2 更複雜),但他們是從零開始訓練的。 這在技術上令人印象深刻。