Чому нейронні мережі навчаються на межі хаосу Коли ви навчаєте нейронну мережу, оновлення параметрів зазвичай не розподіляються. Вони важкохвості — рідкісні великі стрибки супроводжують багато дрібних коригувань. Ця закономірність проявляється у MLP, CNN і Transformers, у MNIST і CIFAR-10, у ранньому швидкому навчанні та пізній конвергенції. Це підозріло універсально. Сінь-Я Чжан і Чао Тан стверджують, що це не особливість стохастичного градієнтного спуску чи міні-батч-шуму. Це ознака самоорганізованої критичності, що виникає з фундаментального компромісу: принцип максимальної ентропії змушує мережу вільно досліджувати, тоді як взаємне інформаційне обмеження змушує оновлення залишатися релевантними до завдання. Якщо збалансувати ці дві сили, отримаєте статистику закону ступеня — ту ж масштабну поведінку, що спостерігається при землетрусах, нейронних лавинах і фінансових ринках. Докази переконливі. Показник ступеневого закону залишається дивовижно стабільним протягом усього тренування, навіть коли втрати зменшуються на порядки. Сам ландшафт втрат демонструє багатомасштабну структуру: експоненціальну гладкість під малими збуреннями (локально плоскі басейни), перехід до ступеневої жорсткості на більших масштабах. Навіть час великих оновлень відповідає важкохвостій статистиці — великі навчальні події збираються разом, а не випадково, з показниками близько 2,5–2,7. Те, що робить це концептуально задовільним, — це теоретичне виведення з перших принципів. Починаючи з максимізації ентропії за інформаційним обмеженням і використовуючи інтегральну формулювання KL дивергенції через простір параметрів, автори точно відновлюють спостережувану поведінку масштабування. Без тонкого налаштування, без випадкових припущень. Наслідки глибокі: навчання нейронних мереж — це не просто оптимізація, це нерівноважний фізичний процес, який керується тими ж статистичними принципами, що формують складні системи по всій природі. Розуміння цього могло б допомогти розробці більш ефективних алгоритмів навчання та пояснити, чому SGD узагальнюється краще, ніж адаптивні методи, які пригнічують великі дослідницькі оновлення. Стаття: