a trecut neobservat: un hibrid Mamba-2+MLA, *post-antrenat* de la Llama 3. Știam că GQA=>MLA complet este realizabil. Kimi a demonstrat că poți combina MLA și atenția liniară (KDA este mai sofisticat decât Mamba2), dar s-au antrenat de la zero. Este tehnic impresionant.