Dit is zo verdomd cool! Transformers doen aandacht over tokens, stel je nu voor dat je ook aandacht over lagen doet. Dit levert een 1,25x rekenefficiëntie, <4% trainingsoverhead op het 48B Kimi-model, +7,5 op GPQA-Diamond. Kimi wordt stilletjes de nieuwe DeepSeek voor de coolste architectuurinnovatie.