bay dưới tầm radar: một sự kết hợp Mamba-2+MLA, *được huấn luyện sau* từ Llama 3. Chúng tôi biết GQA=>full MLA là khả thi. Kimi đã chứng minh rằng bạn có thể kết hợp MLA và sự chú ý tuyến tính (KDA thì tinh vi hơn Mamba2), nhưng họ đã được huấn luyện từ đầu. Điều này thực sự ấn tượng.