一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

深度连接的9年之路新年快乐！我在过去的两天里深入研究了DeepSeek论文关于多重约束超连接的起源。这有点出乎意料，所以我挖掘了它所建立的早期工作。 -> 一切始于2016年的ResNets（x_{l+1} = x_l + F(x_l)公式）。He等人展示了未修改的身份项通过是使深度网络可训练的关键。 -> DenseNet和FractalNet（2016-17）尝试将每一层连接到其他每一层。效果更好，但连接是固定的，因此网络没有学习到任何东西。 -> 去年，DenseFormer使得平均权重可学习。你可以得到所有前一层输出的加权组合（但仍然只有一个残差流）。 -> 2024年9月的超连接走了不同的方向。它们不是增加更多连接，而是使流变得更宽。从C扩展到n×C维度，在n个流之间添加可学习的混合矩阵。 -> 这就变得有趣了！当你堆叠层时，这些混合矩阵会相乘。如果它们没有约束，乘积可能会爆炸。DeepSeek在他们的27B模型中发现增益幅度约为3000倍。身份映射的整个意义都消失了。 mHC通过通过Sinkhorn-Knopp迭代将混合矩阵约束为双随机来解决这个问题。这些矩阵的谱范数<=1，并且在相乘时保持双随机。增益降至约1.6倍。与2021年Sinkformers论文有一个很好的联系，该论文将Sinkhorn应用于注意力矩阵。mHC做了同样的事情，但针对残差连接！最终结果 = 稳定训练，超越基线和不稳定的HC，系统优化后开销为6.7%！！！自2016年以来，残差连接基本上没有受到影响。这可能是一个重大突破的开始，LFG。