EL CAMINO DE 9 AÑOS HACIA LAS HIPER-CONEXIONES DE DEEPSEEK ¡Feliz Año Nuevo! He pasado los últimos dos días en un profundo agujero de conejo sobre los orígenes del documento de DeepSeek sobre Conexiones Hiperconstruidas con Manifold. Salió un poco de la nada, así que investigué trabajos anteriores de los que se basa. -> Todo comienza con ResNets en 2016 (la formulación x_{l+1} = x_l + F(x_l)). He et al. mostraron que el término de identidad que pasa sin modificaciones es lo que hace que las redes profundas sean entrenables. -> DenseNet y FractalNet (2016-17) intentaron conectar cada capa con cada otra capa. Funcionó mejor, pero las conexiones eran fijas, así que nada aprendió la red. -> DenseFormer el año pasado hizo que los pesos de promediado fueran aprendibles. Obtienes una combinación ponderada de todas las salidas de capas anteriores (pero aún solo un flujo residual). -> Las Hiper-Conexiones de septiembre de 2024 tomaron una dirección diferente. En lugar de más conexiones, hacen que el flujo sea más ancho. Se expande de C a n×C dimensiones, añadiendo matrices de mezcla aprendibles entre los n flujos. -> ¡Aquí es donde se pone interesante! Cuando apilas capas, esas matrices de mezcla se multiplican entre sí. Si no están restringidas, el producto puede explotar. DeepSeek encontró magnitudes de ganancia alrededor de 3000x en sus modelos de 27B. Todo el sentido del mapeo de identidad se pierde. mHC soluciona esto restringiendo las matrices de mezcla para que sean doblemente estocásticas a través de iteraciones de Sinkhorn-Knopp. Estas matrices tienen norma espectral <= 1 y permanecen doblemente estocásticas cuando se multiplican. La ganancia cae a ~1.6x. Hay una buena conexión con el documento de Sinkformers de 2021 que aplicó Sinkhorn a matrices de atención. ¡mHC hace lo mismo pero para conexiones residuales! Resultado final = entrenamiento estable, supera tanto la línea base como el HC inestable, ¡6.7% de sobrecarga después de la optimización de sistemas!!! La conexión residual ha estado básicamente sin cambios desde 2016. Esto podría ser el comienzo de algo grande LFG