DeepSeek только что выпустил крутую статью, чтобы подвести итоги 2025 года "mHC: Многообразно-ограниченные гипер-соединения" Гипер-соединения превращают единственную остаточную "автостраду" в трансформерах в n параллельных полос, и каждый слой учится перемещать и делиться сигналом между полосами. Но если каждый слой может произвольно усиливать или уменьшать полосы, то произведение этих перемещений по глубине заставляет сигналы/градиенты взрываться или исчезать. Поэтому они заставляют каждое перемещение сохранять массу: двойная стохастическая матрица (неотрицательная, сумма каждой строки/столбца равна 1). Каждый слой может только перераспределять сигнал между полосами, не создавая и не уничтожая его, так что глубокий пропускной путь остается стабильным, в то время как признаки все еще смешиваются! при n=4 это добавляет ~6.7% времени на обучение, но снижает окончательную потерю на ~0.02 и сохраняет наихудший обратный прирост ~1.6 (по сравнению с ~3000 без ограничения), с последовательными победами на бенчмарках по всем направлениям.