Questo è davvero fantastico! I Transformers fanno attenzione tra i token, ora immagina di fare attenzione anche tra i livelli. Questo offre un'efficienza computazionale di 1,25x, <4% di sovraccarico di addestramento sul modello Kimi da 48B, +7,5 su GPQA-Diamond. Kimi sta silenziosamente diventando il nuovo DeepSeek per l'innovazione architettonica più interessante.