Google DeepMind 剛剛推出了一種新的 LLM 模型架構,稱為 Mixture-of-Recursions。 它的推理速度提高了 2 倍,訓練 FLOPs 減少,KV 快取記憶體約減少 50%。這是一篇非常有趣的閱讀。 有潛力成為 Transformers 的殺手。
源:
190.23K