DeepSeek 刚刚解决了 AI 最古老的问题之一。 (使用一个 60 年的算法) 故事是这样的: 当深度学习蓬勃发展时,研究人员遇到了瓶颈。你不能无限堆叠层。信号要么爆炸,要么消失。训练深层网络几乎是不可能的。 ResNets 在 2016 年通过残差连接解决了这个问题: 输出 = 输入 + 层学习到的内容 这个 "+" 创建了信息的直接通道。这就是为什么我们现在可以训练具有数百层的网络。 最近,研究人员问:如果我们有多条高速公路而不是一条会怎样? 超连接(HC)将那条单车道扩展为 4 条平行车道,具有可学习的矩阵,可以在流之间混合信息。 性能提升是真实的。但有一个问题: 那些混合矩阵在层之间累积。每层微小的 5% 增幅在 60 层后变成 18 倍。论文测量到增幅达到 3000 倍。训练崩溃。 通常的解决方法?梯度裁剪。仔细初始化。希望事情能顺利进行。 这些都是权宜之计。而权宜之计无法扩展。 DeepSeek 回归到基本原理。什么数学约束可以保证稳定性? 答案在 1967 年的一篇论文中:Sinkhorn-Knopp 算法。 它强制混合矩阵为 "双随机",其中行和列的总和均为 1。 结果: - 3000 倍的不稳定性减少到 1.6 倍 - 稳定性由数学保证,而不是运气 - 仅增加 6.7% 的训练开销 没有权宜之计。只有数学。 我在下一条推文中分享了论文的链接。
纸币:
310