è passato inosservato: un ibrido Mamba-2+MLA, *post-addestrato* da Llama 3. Sapevamo che GQA=>full MLA è fattibile. Kimi ha dimostrato che puoi combinare MLA e attenzioni lineari (KDA è più sofisticato di Mamba2, però), ma sono stati addestrati da zero. Questo è tecnicamente impressionante.