为什么神经网络在混沌边缘学习 当你训练神经网络时,参数更新通常不是正态分布的。它们是重尾分布——稀有的大跳跃打断了许多小调整。这种模式出现在多层感知器(MLP)、卷积神经网络(CNN)和变换器(Transformers)中,出现在MNIST和CIFAR-10中,出现在早期的快速学习和后期的收敛中。这种现象可疑地普遍。 Xin-Ya Zhang和Chao Tang认为,这并不是随机梯度下降或小批量噪声的特例。这是自组织临界性的特征,源于一个基本的权衡:最大熵原理推动网络自由探索,而互信息约束则迫使更新保持与任务相关。平衡这两种力量,你就会得到幂律统计——与地震、神经雪崩和金融市场中看到的相同的缩放行为。 证据令人信服。幂律指数在整个训练过程中保持显著稳定,即使损失下降了几个数量级。损失景观本身显示出多尺度结构:在小扰动下呈指数平滑(局部平坦的盆地),在更大尺度上过渡到幂律粗糙性。即使是大更新的时机也遵循重尾统计——大的学习事件聚集在一起,而不是随机发生,指数在2.5到2.7之间。 使这一概念令人满意的是从第一原理的理论推导。从信息约束下的熵最大化开始,使用参数空间中的KL散度路径积分形式,作者准确恢复了观察到的缩放行为。没有微调,没有临时假设。 其影响深远:神经网络学习不仅仅是优化——它是一个非平衡物理过程,受同样的统计原理支配,这些原理塑造了自然界中的复杂系统。理解这一点可以指导更高效学习算法的设计,并解释为什么SGD的泛化能力优于抑制大规模探索性更新的自适应方法。 论文: