Das ist so verdammt cool! Transformers machen Aufmerksamkeit über Tokens, jetzt stell dir vor, auch Aufmerksamkeit über Schichten zu machen. Das liefert eine 1,25-fache Recheneffizienz, <4% Trainingsaufwand beim 48B Kimi-Modell, +7,5 bei GPQA-Diamond. Kimi wird leise zum neuen DeepSeek für die coolste Architektur-Innovation.