To je tak zatraceně super! Transformers dělají pozornost napříč tokeny, teď si představte, že byste dělali pozornost i přes vrstvy. To přináší výpočetní efektivitu 1,25x, režijní režie <4 % u modelu 48B Kimi a +7,5 % u GPQA-Diamond. Kimi se tiše stává novým DeepSeek pro nejzajímavější architektonickou inovaci.