DeepSeek julkaisi juuri huippulehden päättääkseen vuoden 2025 "mHC: Manifold-rajoitetut hyperyhteydet" Hyper-yhteydet muuttavat muuntajien yksittäisen jäljelle jääneen "moottoritien" n rinnakkaiskaistaksi, ja jokainen kerros oppii sekoittamaan ja jakamaan signaalia kaistojen välillä. Mutta jos jokainen kerros voi mielivaltaisesti vahvistaa tai kutistaa kaistoja, näiden syvyyden vaihtelujen tulos saa signaalit/gradientit kasvamaan tai häivymään. Siksi ne pakottavat jokaisen sekoituksen säilyttämään massaa: kaksinkertaisesti stokastinen matriisi (ei-negatiivinen, jokainen rivi/sarake summataan yhteen). Jokainen kerros voi vain jakaa signaalia kaistojen välillä, ei luoda tai tuhota sitä, joten syvä ohituspolku pysyy vakaana samalla kun ominaisuudet edelleen sekoittuvat! n=4:llä se lisää ~6,7 % harjoitteluaikaa, mutta vähentää lopullista tappiota ~0,02 ja pitää pahimman mahdollisen taaksepäin tapahtuneen voiton ~1,6 (vs ~3000 ilman rajoitetta), ja johdonmukaiset benchmark-voitot kautta linjan