De ce rețelele neuronale învață la marginea haosului Când antrenezi o rețea neuronală, actualizările parametrilor nu sunt distribuite în mod normal. Sunt cu coadă grea — rarele sărituri mari punctează multe ajustări mici. Acest tipar apare în MLP-uri, CNN-uri și Transformers, în MNIST și CIFAR-10, în învățarea rapidă timpurie și convergența târzie. Este suspect de universal. Xin-Ya Zhang și Chao Tang susțin că aceasta nu este o ciudățenie a coborârii stocastice a gradientului sau a zgomotului mini-batch. Este o semnătură a criticității auto-organizate, care rezultă dintr-un compromis fundamental: principiul entropiei maxime împinge rețeaua să exploreze liber, în timp ce o constrângere reciprocă de informație obligă actualizările să rămână relevante pentru sarcină. Echilibrând aceste două forțe, obții statistici de lege de putere — același comportament de scalare văzut în cutremure, avalanșe neuronale și piețele financiare. Dovezile sunt convingătoare. Exponentul legii puterii rămâne remarcabil de stabil pe tot parcursul antrenamentului, chiar dacă pierderile scade cu ordine de mărime. Peisajul de pierdere în sine prezintă o structură multiscală: neteziune exponențială sub perturbații mici (bazine local plate), tranziție către robustețe cu legi de putere la scară mai mare. Chiar și momentul actualizărilor mari urmează statistici cu coadă grea — evenimentele mari de învățare se grupează în loc să apară aleatoriu, cu exponenți în jur de 2,5–2,7. Ceea ce face acest lucru conceptual satisfăcător este derivarea teoretică din principiile de bază. Pornind de la maximizarea entropiei sub o constrângere informațională și folosind o formulare integrală de cale a divergenței KL prin spațiul parametrilor, autorii recuperează exact comportamentul de scalare observat. Fără ajustări fine, fără presupuneri ad-hoc. Implicațiile sunt profunde: învățarea rețelelor neuronale nu este doar optimizare — este un proces fizic în afara echilibrului, guvernat de aceleași principii statistice care modelează sisteme complexe în întreaga natură. Înțelegerea acestui lucru ar putea ghida proiectarea unor algoritmi de învățare mai eficienți și ar putea explica de ce SGD se generalizează mai bine decât metodele adaptive care suprimă actualizările exploratorii de amploare. Hârtie: