為什麼神經網絡在混沌邊緣學習 當你訓練神經網絡時,參數更新通常不是正態分佈的。它們是重尾分佈——罕見的大跳躍穿插著許多小調整。這種模式出現在多層感知器(MLP)、卷積神經網絡(CNN)和變壓器(Transformers)中,出現在MNIST和CIFAR-10中,出現在早期的快速學習和後期的收斂中。這種現象可疑地普遍。 Xin-Ya Zhang和Chao Tang認為這不是隨機梯度下降或小批量噪聲的怪癖。這是自組織臨界性的特徵,源於一個基本的權衡:最大熵原則推動網絡自由探索,而互信息約束則迫使更新保持與任務相關。平衡這兩種力量,你就會得到冪律統計——這種縮放行為在地震、神經雪崩和金融市場中都能看到。 證據令人信服。冪律指數在訓練過程中保持驚人的穩定,即使損失下降了幾個數量級。損失景觀本身顯示出多尺度結構:在小擾動下呈指數平滑(局部平坦的盆地),在較大尺度上過渡到冪律粗糙性。即使是大更新的時機也遵循重尾統計——大的學習事件聚集在一起,而不是隨機發生,指數約在2.5到2.7之間。 這個概念令人滿意的是,從第一原則的理論推導。從在信息約束下的熵最大化開始,並使用KL散度的路徑積分形式通過參數空間,作者精確地恢復了觀察到的縮放行為。沒有微調,沒有臨時假設。 這些含義深遠:神經網絡學習不僅僅是優化——它是一個非平衡的物理過程,受相同的統計原則支配,這些原則塑造了自然界中的複雜系統。理解這一點可以指導設計更高效的學習算法,並解釋為什麼SGD的泛化能力優於抑制大型探索性更新的自適應方法。 論文: