热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
深度连接的9年之路
新年快乐!我在过去的两天里深入研究了DeepSeek论文关于多重约束超连接的起源。这有点出乎意料,所以我挖掘了它所建立的早期工作。
-> 一切始于2016年的ResNets(x_{l+1} = x_l + F(x_l)公式)。He等人展示了未修改的身份项通过是使深度网络可训练的关键。
-> DenseNet和FractalNet(2016-17)尝试将每一层连接到其他每一层。效果更好,但连接是固定的,因此网络没有学习到任何东西。
-> 去年,DenseFormer使得平均权重可学习。你可以得到所有前一层输出的加权组合(但仍然只有一个残差流)。
-> 2024年9月的超连接走了不同的方向。它们不是增加更多连接,而是使流变得更宽。从C扩展到n×C维度,在n个流之间添加可学习的混合矩阵。
-> 这就变得有趣了!当你堆叠层时,这些混合矩阵会相乘。如果它们没有约束,乘积可能会爆炸。DeepSeek在他们的27B模型中发现增益幅度约为3000倍。身份映射的整个意义都消失了。
mHC通过通过Sinkhorn-Knopp迭代将混合矩阵约束为双随机来解决这个问题。这些矩阵的谱范数<=1,并且在相乘时保持双随机。增益降至约1.6倍。
与2021年Sinkformers论文有一个很好的联系,该论文将Sinkhorn应用于注意力矩阵。mHC做了同样的事情,但针对残差连接!
最终结果 = 稳定训练,超越基线和不稳定的HC,系统优化后开销为6.7%!!!
自2016年以来,残差连接基本上没有受到影响。这可能是一个重大突破的开始,LFG。

热门
排行
收藏
