DeepSeek heeft net een geweldige paper uitgebracht om 2025 af te ronden "mHC: Manifold-Constrained Hyper-Connections" Hyper-Connections veranderen de enkele residuele "snelweg" in transformers in n parallelle rijstroken, en elke laag leert hoe signalen tussen rijstroken te schudden en te delen. Maar als elke laag rijstroken willekeurig kan versterken of verkleinen, maakt het product van die schudbewegingen over de diepte dat signalen/gradiënten exploderen of vervagen. Dus dwingen ze elke schudbeweging om massa-conserverend te zijn: een dubbel stochastische matrix (niet-negatief, elke rij/kolom telt op tot 1). Elke laag kan alleen signalen herverdelen over rijstroken, niet creëren of vernietigen, zodat het diepe overslaan-pad stabiel blijft terwijl kenmerken nog steeds mengen! met n=4 voegt het ~6,7% trainingstijd toe, maar vermindert de uiteindelijke verlies met ~0,02, en houdt de slechtste geval achterwaartse winst ~1,6 (tegenover ~3000 zonder de beperking), met consistente benchmarkoverwinningen overal.