DeepSeek właśnie opublikował świetny dokument na zakończenie 2025 "mHC: Manifold-Constrained Hyper-Connections" Hyper-Connections przekształcają pojedynczą residualną „autostradę” w transformatorach w n równoległych pasów, a każda warstwa uczy się, jak przetasować i dzielić sygnał między pasami. Ale jeśli każda warstwa może dowolnie wzmacniać lub zmniejszać pasy, produkt tych przetasowań w głębokości sprawia, że sygnały/gradienty eksplodują lub zanikają. Dlatego zmuszają każde przetasowanie do zachowania masy: podwójnie stochastyczna macierz (nieujemna, każda kolumna/wiersz sumuje się do 1). Każda warstwa może tylko redystrybuować sygnał między pasami, nie może go tworzyć ani niszczyć, więc głęboka ścieżka pomijania pozostaje stabilna, podczas gdy cechy nadal się mieszają! przy n=4 dodaje ~6.7% czasu treningu, ale obniża ostateczną stratę o ~0.02 i utrzymuje najgorszy przypadek zysku wstecznego na poziomie ~1.6 (w porównaniu do ~3000 bez ograniczenia), z konsekwentnymi zwycięstwami w benchmarkach na całej linii