DeepSeek slapp nettopp et fantastisk papir for å avslutte 2025 "mHC: Manifold-begrensede hyperforbindelser" Hyper-Connections gjør den ene gjenværende "motorveien" i transformatorene om til n parallelle felt, og hvert lag lærer seg å stokke og dele signal mellom feltene. Men hvis hvert lag kan forsterke eller krympe baner vilkårlig, gjør produktet av disse forskyvningene over dybden at signaler/gradienter blåses opp eller forsvinner. Så de tvinger hver stokking til å være massebevarende: en dobbeltstokastisk matrise (ikke-negativ, hver rad/kolonne summeres til 1). Hvert lag kan bare omfordele signalet over baner, ikke skape eller ødelegge det, så den dype hopp-stien forblir stabil mens funksjonene fortsatt blandes! med n=4 legger det til ~6,7 % treningstid, men reduserer slutttap med ~0,02, og beholder verst tenkelig bakovergevinst ~1,6 (mot ~3000 uten begrensningen), med konsistente benchmark-seire over hele linja.