Ini sangat keren! Transformers melakukan perhatian di seluruh token, sekarang bayangkan melakukan perhatian di seluruh lapisan juga. Ini memberikan efisiensi komputasi 1,25x, overhead pelatihan <4% pada model Kimi 48B, +7,5 pada GPQA-Diamond. Kimi diam-diam menjadi DeepSeek baru untuk inovasi arsitektur paling keren.