DeepSeek 剛發佈了一篇精彩的論文來總結 2025 年 "mHC: 多重約束超連接" 超連接將變壓器中的單一殘差“高速公路”轉變為 n 條平行車道,每一層學會如何在車道之間洗牌和共享信號。 但如果每一層可以任意放大或縮小車道,那麼這些洗牌在深度上的乘積會使信號/梯度爆炸或消失。 因此,他們強制每次洗牌都必須保持質量守恆:一個雙隨機矩陣(非負,每一行/列的總和為 1)。每一層只能在車道之間重新分配信號,而不能創造或摧毀它,因此深度跳過路徑保持穩定,同時特徵仍然可以混合! 當 n=4 時,增加約 6.7% 的訓練時間,但最終損失減少約 0.02,並且保持最壞情況下的反向增益約 1.6(相比於沒有約束的 ~3000),在各方面的基準測試中都取得了一致的勝利。