pasó desapercibido: un híbrido Mamba-2+MLA, *entrenado después* de Llama 3. Sabíamos que GQA=>MLA completo es factible. Kimi ha demostrado que puedes combinar MLA y atenciones lineales (aunque KDA es más sofisticado que Mamba2), pero entrenaron desde cero. Esto es técnicamente impresionante.