Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pourquoi les réseaux de neurones apprennent-ils à la limite du chaos
Lorsque vous entraînez un réseau de neurones, les mises à jour des paramètres ne sont pas normalement distribuées. Elles ont une longue traîne : de rares grands sauts ponctuent de nombreux petits ajustements. Ce schéma apparaît à travers les MLP, les CNN et les Transformers, à travers MNIST et CIFAR-10, à travers un apprentissage rapide précoce et une convergence tardive. C'est suspectement universel.
Xin-Ya Zhang et Chao Tang soutiennent que ce n'est pas une particularité de la descente de gradient stochastique ou du bruit des mini-lots. C'est une signature de la criticité auto-organisée, émergeant d'un compromis fondamental : le principe de l'entropie maximale pousse le réseau à explorer librement, tandis qu'une contrainte d'information mutuelle force les mises à jour à rester pertinentes par rapport à la tâche. Équilibrez ces deux forces, et vous obtenez des statistiques de loi de puissance - le même comportement d'échelle observé dans les tremblements de terre, les avalanches neuronales et les marchés financiers.
Les preuves sont convaincantes. L'exposant de la loi de puissance reste remarquablement stable tout au long de l'entraînement, même si la perte diminue de plusieurs ordres de grandeur. Le paysage de la perte lui-même montre une structure multiscalaire : une douceur exponentielle sous de petites perturbations (bassins localement plats), transitionnant vers une rugosité de loi de puissance à des échelles plus grandes. Même le timing des grandes mises à jour suit des statistiques à longue traîne - de grands événements d'apprentissage se regroupent plutôt que de se produire aléatoirement, avec des exposants autour de 2,5 à 2,7.
Ce qui rend cela conceptuellement satisfaisant, c'est la dérivation théorique à partir des premiers principes. En partant de la maximisation de l'entropie sous une contrainte d'information, et en utilisant une formulation d'intégrale de chemin de la divergence KL à travers l'espace des paramètres, les auteurs récupèrent exactement le comportement d'échelle observé. Pas de réglage fin, pas d'hypothèses ad hoc.
Les implications sont profondes : l'apprentissage des réseaux de neurones n'est pas seulement une optimisation - c'est un processus physique hors d'équilibre régi par les mêmes principes statistiques qui façonnent les systèmes complexes dans toute la nature. Comprendre cela pourrait guider la conception d'algorithmes d'apprentissage plus efficaces et expliquer pourquoi la SGD se généralise mieux que les méthodes adaptatives qui suppriment les grandes mises à jour exploratoires.
Article :

Meilleurs
Classement
Favoris
