一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

DeepSeek 刚刚解决了 AI 最古老的问题之一。（使用一个 60 年的算法）故事是这样的：当深度学习蓬勃发展时，研究人员遇到了瓶颈。你不能无限堆叠层。信号要么爆炸，要么消失。训练深层网络几乎是不可能的。 ResNets 在 2016 年通过残差连接解决了这个问题：输出 = 输入 + 层学习到的内容这个 "+" 创建了信息的直接通道。这就是为什么我们现在可以训练具有数百层的网络。最近，研究人员问：如果我们有多条高速公路而不是一条会怎样？超连接（HC）将那条单车道扩展为 4 条平行车道，具有可学习的矩阵，可以在流之间混合信息。性能提升是真实的。但有一个问题：那些混合矩阵在层之间累积。每层微小的 5% 增幅在 60 层后变成 18 倍。论文测量到增幅达到 3000 倍。训练崩溃。通常的解决方法？梯度裁剪。仔细初始化。希望事情能顺利进行。这些都是权宜之计。而权宜之计无法扩展。 DeepSeek 回归到基本原理。什么数学约束可以保证稳定性？答案在 1967 年的一篇论文中：Sinkhorn-Knopp 算法。它强制混合矩阵为 "双随机"，其中行和列的总和均为 1。结果： - 3000 倍的不稳定性减少到 1.6 倍 - 稳定性由数学保证，而不是运气 - 仅增加 6.7% 的训练开销没有权宜之计。只有数学。我在下一条推文中分享了论文的链接。

纸币：

310