热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
DeepSeek 刚刚解决了 AI 最古老的问题之一。
(使用一个 60 年的算法)
故事是这样的:
当深度学习蓬勃发展时,研究人员遇到了瓶颈。你不能无限堆叠层。信号要么爆炸,要么消失。训练深层网络几乎是不可能的。
ResNets 在 2016 年通过残差连接解决了这个问题:
输出 = 输入 + 层学习到的内容
这个 "+" 创建了信息的直接通道。这就是为什么我们现在可以训练具有数百层的网络。
最近,研究人员问:如果我们有多条高速公路而不是一条会怎样?
超连接(HC)将那条单车道扩展为 4 条平行车道,具有可学习的矩阵,可以在流之间混合信息。
性能提升是真实的。但有一个问题:
那些混合矩阵在层之间累积。每层微小的 5% 增幅在 60 层后变成 18 倍。论文测量到增幅达到 3000 倍。训练崩溃。
通常的解决方法?梯度裁剪。仔细初始化。希望事情能顺利进行。
这些都是权宜之计。而权宜之计无法扩展。
DeepSeek 回归到基本原理。什么数学约束可以保证稳定性?
答案在 1967 年的一篇论文中:Sinkhorn-Knopp 算法。
它强制混合矩阵为 "双随机",其中行和列的总和均为 1。
结果:
- 3000 倍的不稳定性减少到 1.6 倍
- 稳定性由数学保证,而不是运气
- 仅增加 6.7% 的训练开销
没有权宜之计。只有数学。
我在下一条推文中分享了论文的链接。

纸币:
310
热门
排行
收藏
