passou despercebido: um híbrido Mamba-2+MLA, *pós-treinado* do Llama 3. Sabíamos que GQA=>MLA completo é possível. A Kimi já provou que você pode combinar MLA e atenções lineares (KDA é mais sofisticado que o Mamba2), mas eles treinaram do zero. Isso é tecnicamente impressionante.