Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Почему нейронные сети учатся на грани хаоса
Когда вы обучаете нейронную сеть, обновления параметров обычно не распределены нормально. Они имеют тяжелый хвост — редкие большие скачки прерывают множество мелких корректировок. Этот паттерн наблюдается как в MLP, так и в CNN и Transformers, на MNIST и CIFAR-10, в процессе раннего быстрого обучения и поздней сходимости. Это подозрительно универсально.
Синь-Я Чжан и Чао Танг утверждают, что это не прихоть стохастического градиентного спуска или шума мини-партии. Это признак самоорганизованной критичности, возникающий из фундаментального компромисса: принцип максимальной энтропии заставляет сеть исследовать свободно, в то время как ограничение взаимной информации заставляет обновления оставаться актуальными для задачи. Уравновесив эти две силы, вы получаете статистику степенного закона — такое же масштабное поведение, как в землетрясениях, нейронных лавинах и финансовых рынках.
Доказательства убедительны. Экспонента степенного закона остается удивительно стабильной на протяжении всего обучения, даже когда потери уменьшаются на порядки. Сам ландшафт потерь показывает многоуровневую структуру: экспоненциальная гладкость при небольших возмущениях (локально плоские бассейны), переходящая в грубость степенного закона на больших масштабах. Даже время крупных обновлений следует тяжелохвостым статистикам — большие события обучения группируются вместе, а не происходят случайно, с экспонентами около 2.5–2.7.
Что делает это концептуально удовлетворительным, так это теоретическое выведение из первых принципов. Начав с максимизации энтропии при ограничении информации и используя формулировку интеграла по пути для KL-дивергенции через пространство параметров, авторы точно восстанавливают наблюдаемое масштабное поведение. Никакой тонкой настройки, никаких произвольных предположений.
Последствия глубоки: обучение нейронной сети — это не просто оптимизация — это неравновесный физический процесс, управляемый теми же статистическими принципами, которые формируют сложные системы в природе. Понимание этого может помочь в разработке более эффективных алгоритмов обучения и объяснить, почему SGD обобщает лучше, чем адаптивные методы, которые подавляют крупные исследовательские обновления.
Статья:

Топ
Рейтинг
Избранное
