なぜニューラルネットワークは混沌の境界で学習するのか ニューラルネットワークを訓練する際、パラメータの更新は正規分布ではありません。彼らは尾が重く、稀に大きなジャンプが多くの小さな調整を特徴としています。このパターンはMLP、CNN、トランスフォーマー、MNISTやCIFAR-10、初期急速学習と後期収束に見られます。それは不自然なほど普遍的です。 張欣雅と唐超は、これは確率的な勾配降下やミニバッチノイズの特異現象ではないと主張します。これは自己組織化臨界性の特徴であり、根本的なトレードオフから生まれます。すなわち、最大エントロピー原理がネットワークを自由に探索させる一方で、相互情報の制約が更新をタスク関連性に保つことを強制します。この二つの力をバランスさせることで、べき法則統計が得られます。これは地震、神経の雪崩、金融市場で見られるのと同じスケーリング挙動です。 証拠は説得力があります。べき乗則の指数は、減量が桁違いに減少してもトレーニング中は非常に安定しています。損失地形自体は多スケール構造を示しています。小さな摂動(局所的に平坦な盆地)下での指数関数的な滑らかさ、より大きなスケールではべき乗則の粗さへと移行します。大規模な更新のタイミングも重い統計に従っており、大きな学習イベントはランダムに発生するのではなく集まり、指数は2.5〜2.7程度です。 この概念が概念的に満足できるのは、原理から理論的に導出されている点です。情報制約下でのエントロピー最大化から出発し、パラメータ空間を通じたKL発散の経路積分定式化を用いて、著者らは観測されたスケーリング挙動を正確に復元します。微調整も、場当たり的な前提もありません。 その影響は深く、ニューラルネットワーク学習は単なる最適化ではなく、自然界の複雑なシステムを形作る統計的原理と同じ非平衡物理過程であるということです。この理解は、より効率的な学習アルゴリズムの設計に指針となり、SGDが大規模な探索的更新を抑制する適応的手法よりも一般化が優れている理由を説明できるでしょう。 論文: