To jest naprawdę niesamowite! Transformery zwracają uwagę na tokeny, a teraz wyobraź sobie, że zwracają uwagę również na warstwy. To zapewnia 1,25x wydajności obliczeniowej, <4% narzutu na trening w modelu 48B Kimi, +7,5 na GPQA-Diamond. Kimi cicho staje się nowym DeepSeek w zakresie najfajniejszej innowacji architektonicznej.