DeepSeek právě vydal skvělý článek na závěr roku 2025 "mHC: Hyper-spojení omezená mnohorozměrem" Hyper-Connections mění jedinou zbytkovou "dálnici" v transformátorech na n paralelních pruhů a každá vrstva se učí, jak přesouvat a sdílet signál mezi pruhy. Ale pokud každá vrstva může libovolně zesílit nebo zmenšit pruhy, součin těchto přesunů v hloubce způsobí, že signály/gradienty vyblednou nebo zaniknou. Proto nutí každé zamíchání zachovávat hmotnost: dvojitě stochastickou matici (nezápornou, každý řádek/sloupec se součítá do 1). Každá vrstva může pouze přerozdělovat signál mezi linkami, ne jej vytvářet nebo ničit, takže hluboká přeskakovací cesta zůstává stabilní, zatímco funkce se stále mísí! S n=4 přidává ~6,7 % trénovací doby, ale snižuje konečnou ztrátu o ~0,02 a v nejhorším případě zůstává zpětný zisk ~1,6 (oproti ~3000 bez omezení), přičemž jsou výsledky benchmarků konzistentní napříč všemi