熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
DeepSeek 剛發佈了一篇精彩的論文來總結 2025 年
"mHC: 多重約束超連接"
超連接將變壓器中的單一殘差“高速公路”轉變為 n 條平行車道,每一層學會如何在車道之間洗牌和共享信號。
但如果每一層可以任意放大或縮小車道,那麼這些洗牌在深度上的乘積會使信號/梯度爆炸或消失。
因此,他們強制每次洗牌都必須保持質量守恆:一個雙隨機矩陣(非負,每一行/列的總和為 1)。每一層只能在車道之間重新分配信號,而不能創造或摧毀它,因此深度跳過路徑保持穩定,同時特徵仍然可以混合!
當 n=4 時,增加約 6.7% 的訓練時間,但最終損失減少約 0.02,並且保持最壞情況下的反向增益約 1.6(相比於沒有約束的 ~3000),在各方面的基準測試中都取得了一致的勝利。

熱門
排行
收藏
