Google DeepMind slapp nettopp denne nye LLM-modellarkitekturen kalt Mixture-of-Recursions. Den får 2x inferenshastighet, reduserte treningsflopper og ~50 % redusert KV-cacheminne. Virkelig interessant lesning. Har potensial til å bli en Transformers-morder.
Kilde:
98,85K