flög under radarn: en Mamba-2+MLA hybrid, *eftertränad* från Llama 3. Vi visste att GQA=>full MLA är genomförbart. Kimi har bevisat att man kan kombinera MLA och linjära uppmärksamheter (KDA är dock mer sofistikerat än Mamba2), men de tränade från grunden. Detta är tekniskt imponerande.