DeepSeek щойно опублікував престижну статтю, щоб підсумувати 2025 рік "mHC: Гіперзв'язки, обмежені колекторами" Гіперз'єднання перетворюють єдину залишкову «шосе» в трансформаторах на n паралельних смуг, і кожен шар вчиться тасувати та ділитися сигналом між смугами. Але якщо кожен шар може довільно підсилювати або зменшувати лінії, результат цих перетасувань по глибині змушує сигнали/градієнти вибухати або зникати. Тому вони змушують кожне тасування зберігати масу: подвійно стохастична матриця (невід'ємна, кожен рядок/стовпець дорівнює 1). Кожен шар може лише перерозподіляти сигнал між лініями, а не створювати чи знищувати його, тому глибокий пропускний шлях залишається стабільним, поки функції все ще змішуються! з n=4 це додає ~6,7% часу тренування, але скорочує фінальну втрату на ~0,02 і зберігає найгірший зворотний приріст ~1,6 (проти ~3000 без обмеження), з стабільними перемогами у еталонних показниках у всіх аспектах