Почему нейронные сети учатся на грани хаоса Когда вы обучаете нейронную сеть, обновления параметров обычно не распределены нормально. Они имеют тяжелый хвост — редкие большие скачки прерывают множество мелких корректировок. Этот паттерн наблюдается как в MLP, так и в CNN и Transformers, на MNIST и CIFAR-10, в процессе раннего быстрого обучения и поздней сходимости. Это подозрительно универсально. Синь-Я Чжан и Чао Танг утверждают, что это не прихоть стохастического градиентного спуска или шума мини-партии. Это признак самоорганизованной критичности, возникающий из фундаментального компромисса: принцип максимальной энтропии заставляет сеть исследовать свободно, в то время как ограничение взаимной информации заставляет обновления оставаться актуальными для задачи. Уравновесив эти две силы, вы получаете статистику степенного закона — такое же масштабное поведение, как в землетрясениях, нейронных лавинах и финансовых рынках. Доказательства убедительны. Экспонента степенного закона остается удивительно стабильной на протяжении всего обучения, даже когда потери уменьшаются на порядки. Сам ландшафт потерь показывает многоуровневую структуру: экспоненциальная гладкость при небольших возмущениях (локально плоские бассейны), переходящая в грубость степенного закона на больших масштабах. Даже время крупных обновлений следует тяжелохвостым статистикам — большие события обучения группируются вместе, а не происходят случайно, с экспонентами около 2.5–2.7. Что делает это концептуально удовлетворительным, так это теоретическое выведение из первых принципов. Начав с максимизации энтропии при ограничении информации и используя формулировку интеграла по пути для KL-дивергенции через пространство параметров, авторы точно восстанавливают наблюдаемое масштабное поведение. Никакой тонкой настройки, никаких произвольных предположений. Последствия глубоки: обучение нейронной сети — это не просто оптимизация — это неравновесный физический процесс, управляемый теми же статистическими принципами, которые формируют сложные системы в природе. Понимание этого может помочь в разработке более эффективных алгоритмов обучения и объяснить, почему SGD обобщает лучше, чем адаптивные методы, которые подавляют крупные исследовательские обновления. Статья: