一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

低調進行：一個 Mamba-2+MLA 混合體，*後訓練*自 Llama 3。我們知道 GQA=>完整 MLA 是可行的。Kimi 已經證明可以結合 MLA 和線性注意力（不過 KDA 比 Mamba2 更複雜），但他們是從零開始訓練的。這在技術上令人印象深刻。