一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

DeepSeek 剛剛解決了 AI 最古老的問題之一。（使用一個 60 年的算法）故事是這樣的：當深度學習蓬勃發展時，研究人員遇到了一個瓶頸。你不能無限堆疊層。信號要麼爆炸，要麼消失。訓練深度網絡幾乎是不可能的。 ResNets 在 2016 年通過殘差連接解決了這個問題：輸出 = 輸入 + 層學到的東西那個 "+" 創造了一條信息的直接高速公路。這就是為什麼我們現在可以訓練擁有數百層的網絡。最近，研究人員問：如果我們有多條高速公路而不是一條會怎樣？超連接（HC）將那條單一車道擴展為 4 條平行車道，並使用可學習的矩陣在流之間混合信息。性能提升是真實的。但有一個問題：那些混合矩陣在層之間會累積。每層微小的 5% 增幅在 60 層後變成 18 倍。論文測量到增幅達到 3000 倍。訓練崩潰了。通常的修復方法？梯度裁剪。小心初始化。希望事情能順利進行。這些都是臨時解決方案。而臨時解決方案無法擴展。 DeepSeek 回到基本原則。什麼數學約束可以保證穩定性？答案在 1967 年的一篇論文中：Sinkhorn-Knopp 算法。它強制混合矩陣為 "雙隨機"，使得行和列的總和都為 1。結果： - 3000 倍的不穩定性降低到 1.6 倍 - 穩定性由數學保證，而不是運氣 - 只有 6.7% 的額外訓練開銷沒有臨時解決方案。只有數學。我已經在下一條推文中分享了論文的鏈接。

紙：

302