熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
深度尋找的超連接之九年之路
新年快樂!我在過去的兩天裡深入研究了關於深度尋找論文的起源,該論文涉及多重約束的超連接。這有點出乎意料,因此我挖掘了它所基於的舊有工作。
-> 一切始於2016年的ResNets(x_{l+1} = x_l + F(x_l)的公式)。He等人展示了未經修改的身份項通過的方式使得深度網絡能夠進行訓練。
-> DenseNet和FractalNet(2016-17)嘗試將每一層連接到其他每一層。效果更好,但連接是固定的,因此網絡沒有學到任何東西。
-> 去年,DenseFormer使得平均權重可學習。你會得到所有前一層輸出的加權組合(但仍然只有一個殘差流)
-> 2024年9月的超連接走了一個不同的方向。它們不是增加更多的連接,而是使流變得更寬。從C擴展到n×C維度,在n個流之間添加可學習的混合矩陣。
-> 這裡變得有趣了!當你堆疊層時,這些混合矩陣會相乘。如果它們不受約束,乘積可能會爆炸。深度尋找在其27B模型中發現增益幅度約為3000倍。身份映射的整個意義消失了。
mHC通過通過Sinkhorn-Knopp迭代將混合矩陣約束為雙隨機來解決這個問題。這些矩陣的譜範數<=1,並且在相乘時保持雙隨機性。增益降至約1.6倍。
這與2021年Sinkformers論文有很好的聯繫,該論文將Sinkhorn應用於注意力矩陣。mHC做了同樣的事情,但針對殘差連接!
最終結果 = 穩定的訓練,超越基線和不穩定的HC,系統優化後的開銷為6.7%!!!
自2016年以來,殘差連接基本上沒有受到影響。這可能是某件大事的開始,LFG

熱門
排行
收藏
