пролетел под радаром: гибрид Mamba-2+MLA, *пост-тренированный* на Llama 3. Мы знали, что GQA=>полный MLA осуществим. Кими доказал, что можно комбинировать MLA и линейные внимания (KDA более сложен, чем Mamba2), но они обучались с нуля. Это технически впечатляюще.