DeepSeek acaba de publicar un artículo espectacular para cerrar 2025 "mHC: Hiperconexiones Restringidas por Variedad" Las Hiperconexiones convierten la única "autopista" residual en transformadores en n carriles paralelos, y cada capa aprende a barajar y compartir señal entre carriles. Pero si cada capa puede amplificar o reducir los carriles arbitrariamente, el producto de esos barajados a lo largo de la profundidad hace que las señales/gradientes se desvanezcan o se desvanezcan. Así que obligan cada barajado a conservar masa: una matriz doblemente estocástica (no negativa, cada fila/columna suma 1). Cada capa solo puede redistribuir la señal entre carriles, no crearla ni destruirla, así que el camino profundo de salto se mantiene estable mientras las características siguen mezclándose. Con n=4 añade ~6,7% de tiempo de entrenamiento, pero reduce la pérdida final en ~0,02 y mantiene la ganancia inversa en el peor caso ~1,6 (frente a ~3000 sin la restricción), con victorias consistentes en benchmarks en todos los aspectos