Proč se neuronové sítě učí na okraji chaosu Když trénujete neuronovou síť, aktualizace parametrů se obvykle nedistribuují. Jsou těžkopádní – vzácné velké skoky podtrhnou mnoho drobných úprav. Tento vzorec se objevuje napříč MLP, CNN a Transformery, napříč MNIST a CIFAR-10, napříč raným rapid learningem a pozdní konvergencí. Je to podezřele univerzální. Xin-Ya Zhang a Chao Tang tvrdí, že to není zvláštnost stochastického gradientního sestupu nebo mini-batch šumu. Je to typický znak samoorganizované kritickosti, vyplývající ze zásadního kompromisu: princip maximální entropie nutí síť k volnému průzkumu, zatímco vzájemné informační omezení nutí aktualizace zůstat relevantní pro úkol. Pokud tyto dvě síly vyvážíte, dostanete statistiky podle mocninných zákonů – stejné škálování, jaké vidíme při zemětřeseních, neuronálních lavinách a finančních trzích. Důkazy jsou přesvědčivé. Exponent mocninného zákona zůstává během tréninku pozoruhodně stabilní, i když ztráty klesají o řády. Samotná ztrátová krajina vykazuje vícerozměrnou strukturu: exponenciální hladkost při malých poruchách (lokálně ploché pánve), přechod k robustnosti podle mocnin na větších škálách. Dokonce i načasování velkých aktualizací se řídí těžkoocasou statistikou – velké učební události se shlukují dohromady, místo aby se vyskytovaly náhodně, s exponenty kolem 2,5–2,7. To, co to činí konceptuálně uspokojivým, je teoretické odvození z prvních principů. Od maximalizace entropie pod informačním omezením a pomocí formulace cest-integrálu KL divergence v prostoru parametrů autoři přesně obnovují pozorované škálování. Žádné doladění, žádné ad hoc předpoklady. Důsledky jsou hluboké: učení neuronových sítí není jen optimalizace – je to nerovnovážný fyzikální proces řízený stejnými statistickými principy, které formují složité systémy v přírodě. Pochopení tohoto by mohlo vést k návrhu efektivnějších učebních algoritmů a vysvětlit, proč SGD zobecňuje lépe než adaptivní metody, které potlačují velké průzkumné aktualizace. Článek: