熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
黑客無法擴展。數學可以。
DeepSeek 剛剛證明了這一點。
他們在 2025 年結束時推出了一個驚人的成果。
"mHC:多重約束超連接。"
這為什麼重要:
當深度學習興起時,研究人員遇到了瓶頸。你不能無限堆疊層;信號要麼爆炸,要麼消失。訓練深度網絡幾乎是不可能的。
ResNets 在 2016 年通過殘差連接解決了這個問題:
輸出 = 輸入 + 層學到的東西
那個 " + " 創造了一條信息的直接高速公路。這就是為什麼我們現在可以訓練擁有數百層的網絡。
最近,研究人員問:如果我們有多條高速公路而不是一條會怎樣?
超連接 (HC) 將那條單一車道擴展為 4 條平行車道,並使用可學習的矩陣在流之間混合信息。
性能提升是真實的。但有一個問題:
那些混合矩陣在層之間會累積。每層微小的 5% 增幅在 60 層後變成 18 倍。論文測量到增幅達到 3000 倍,導致訓練崩潰。
通常的修復方法:梯度裁剪、仔細初始化,以及希望事情能順利進行。
DeepSeek 回到基本原則:什麼數學約束可以保證穩定性?
答案隱藏在一個 59 年前的算法中(Sinkhorn-Knopp 1967)
它強制混合矩陣為雙隨機,這意味著行和列的總和都為 1。
結果:
- 3000 倍不穩定 → 1.6 倍
- 穩定性由數學保證,而不是運氣
- 只有 6.7% 的額外訓練開銷
沒有黑客。只有數學。
如果你想了解更多,我在下一條推文中分享了論文的鏈接。

紙:
204
熱門
排行
收藏
