深度连接的9年之路 新年快乐!我在过去的两天里深入研究了DeepSeek论文关于多重约束超连接的起源。这有点出乎意料,所以我挖掘了它所建立的早期工作。 -> 一切始于2016年的ResNets(x_{l+1} = x_l + F(x_l)公式)。He等人展示了未修改的身份项通过是使深度网络可训练的关键。 -> DenseNet和FractalNet(2016-17)尝试将每一层连接到其他每一层。效果更好,但连接是固定的,因此网络没有学习到任何东西。 -> 去年,DenseFormer使得平均权重可学习。你可以得到所有前一层输出的加权组合(但仍然只有一个残差流)。 -> 2024年9月的超连接走了不同的方向。它们不是增加更多连接,而是使流变得更宽。从C扩展到n×C维度,在n个流之间添加可学习的混合矩阵。 -> 这就变得有趣了!当你堆叠层时,这些混合矩阵会相乘。如果它们没有约束,乘积可能会爆炸。DeepSeek在他们的27B模型中发现增益幅度约为3000倍。身份映射的整个意义都消失了。 mHC通过通过Sinkhorn-Knopp迭代将混合矩阵约束为双随机来解决这个问题。这些矩阵的谱范数<=1,并且在相乘时保持双随机。增益降至约1.6倍。 与2021年Sinkformers论文有一个很好的联系,该论文将Sinkhorn应用于注意力矩阵。mHC做了同样的事情,但针对残差连接! 最终结果 = 稳定训练,超越基线和不稳定的HC,系统优化后开销为6.7%!!! 自2016年以来,残差连接基本上没有受到影响。这可能是一个重大突破的开始,LFG。