EL CAMINO DE 9 AÑOS HACIA LAS HIPERCONEXIONES DE DEEPSEEK ¡Feliz Año Nuevo! He pasado los últimos dos días sumido en un profundo agujero de conejo sobre los orígenes del artículo de DeepSeek sobre las Conexiones Hiper Restringidas de Variedades. Me salió un poco de la nada, así que me puse a investigar trabajos antiguos sobre los que se construye. -> Todo comienza con ResNets en 2016 (la formulación x_{l+1} = x_l + F(x_l)). He et al. demostraron que el término identidad que pasa sin modificar es lo que hace que las redes profundas sean entrenables. -> DenseNet y FractalNet (2016-17) intentaron conectar cada capa con cada una. Funcionó mejor pero las conexiones estaban arregladas, así que la red no aprendió nada -> DenseFormer el año pasado hizo que los pesos promedio fueran aprendibles. Obtienes una combinación ponderada de todas las salidas de capas anteriores (pero sigue siendo solo un flujo residual). -> Hyper-Conexiones de septiembre de 2024 tomó un rumbo diferente. En lugar de más conexiones, hacen que el flujo se ensanche. Expande de C a n×C dimensiones, añade matrices de mezcla aprendibles entre los n flujos -> ¡Aquí es donde se pone interesante! Cuando apilas capas, esas matrices de mezcla se multiplican entre sí. Si no están restringidos, el producto puede explotar. DeepSeek encontró magnitudes de ganancia alrededor de 3000 veces en sus modelos 27B. Todo el sentido del mapeo de identidad ha desaparecido. mHC soluciona esto restringiendo las matrices de mezcla a ser doblemente estocásticas mediante iteraciones de Sinkhorn-Knopp. Estas matrices tienen norma espectral <= 1 y se mantienen doblemente estocásticas cuando se multiplican juntas. La ganancia baja a ~1,6x. Hay una buena conexión con el artículo de Sinkformers de 2021, que aplicó Sinkhorn a matrices de atención. ¡MHC hace lo mismo pero para conexiones residuales! Resultado final = entrenamiento estable, supera tanto la línea base como la inestable HC, 6,7% de sobrecarga tras optimización del sistema!! La conexión residual ha permanecido prácticamente intacta desde 2016. Esto podría ser el comienzo de algo grande en LFG