Google DeepMind acaba de lanzar esta nueva arquitectura de modelo LLM llamada Mixture-of-Recursions. Obtiene una velocidad de inferencia 2x, FLOPs de entrenamiento reducidos y una memoria caché KV ~50% reducida. Muy interesante la lectura. Tiene potencial para ser un asesino de Transformers.
Fuente:
237.3K