Radar altında uçtu: Llama 3'ten *post-eğitimli* bir Mamba-2+MLA hibriti. GQA=>tam milletvekili yapılabilir olduğunu biliyorduk. Kimi, MLA ile lineer dikkatleri birleştirebileceğinizi kanıtladı (KDA Mamba2'den daha sofistike ama daha sofistike bir şey), ama onlar sıfırdan eğitim aldılar. Bu teknik olarak etkileyici.