DeepSeek acaba de lanzar un impresionante documento para cerrar 2025 "mHC: Conexiones Hiper-Constriñidas" Las Conexiones Hiper convierten la única "autopista" residual en transformadores en n carriles paralelos, y cada capa aprende a mezclar y compartir señales entre los carriles. Pero si cada capa puede amplificar o reducir arbitrariamente los carriles, el producto de esas mezclas a través de la profundidad hace que las señales/gradientes se disparen o se desvanecen. Así que obligan a que cada mezcla conserve la masa: una matriz estocástica doble (no negativa, cada fila/columna suma 1). Cada capa solo puede redistribuir señales entre los carriles, no crear o destruir, ¡así que la ruta de salto profundo se mantiene estable mientras las características aún se mezclan! con n=4 añade ~6.7% de tiempo de entrenamiento, pero reduce la pérdida final en ~0.02, y mantiene la ganancia de retroceso en el peor de los casos en ~1.6 (frente a ~3000 sin la restricción), con victorias consistentes en los benchmarks en todos los ámbitos.