pasó desapercibido: un híbrido Mamba-2+MLA, *post-entrenado* a partir de Llama 3. Sabíamos que GQA=>full MLA es factible. Kimi ha demostrado que se pueden combinar MLA y atenciones lineales (KDA es más sofisticado que Mamba2, sin embargo), pero ellos entrenaron desde cero. Esto es técnicamente impresionante.