🚨 ÚLTIMA HORA: DeepSeek acaba de lanzar una mejora fundamental en la arquitectura Transformer El CEO Wenfeng Liang en la lista de autores EL WHALE HA VUELTO 🐋
El artículo "mHC: Conexiones Hiper-Restringidas por Variedades" propone un marco para mejorar las Conexiones Hiper en Transformers. Utiliza proyecciones de variedades para restaurar el mapeo de identidad, abordando la inestabilidad en el entrenamiento, los límites de escalabilidad y la sobrecarga de memoria. Los beneficios clave incluyen un rendimiento y eficiencia mejorados en modelos a gran escala, como se muestra en los experimentos.
95