Bu inanılmaz havalı! Transformers jetonlar arasında dikkat yapıyor, şimdi katmanlar arasında da dikkat yapmayı hayal et. Bu, 48B Kimi modelinde 1,25 kat hesaplama verimliliği, <%4 eğitim yükü ve GPQA-Diamond'da +7,5 oranı sağlar. Kimi, en havalı mimari yenilikler için sessizce yeni DeepSeek haline geliyor.