Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Waarom neurale netwerken leren aan de rand van chaos
Wanneer je een neuraal netwerk traint, zijn parameterupdates niet normaal verdeeld. Ze zijn zwaar-tailed—zeldzame grote sprongen punctueren vele kleine aanpassingen. Dit patroon verschijnt in MLP's, CNN's en Transformers, in MNIST en CIFAR-10, in vroege snelle leerprocessen en late convergentie. Het is verdacht universeel.
Xin-Ya Zhang en Chao Tang beweren dat dit geen eigenaardigheid is van stochastische gradientafname of mini-batchruis. Het is een handtekening van zelfgeorganiseerde kritikaliteit, voortkomend uit een fundamentele afweging: het maximale entropieprincipe duwt het netwerk om vrij te verkennen, terwijl een wederzijdse informatiebeperking dwingt tot taak-relevante updates. Balans tussen deze twee krachten, en je krijgt power-law statistieken—dezelfde schaalgedrag gezien in aardbevingen, neuronale lawines en financiële markten.
Het bewijs is overtuigend. De power-law exponent blijft opmerkelijk stabiel gedurende de training, zelfs als het verlies met meerdere ordes van grootte daalt. Het verlieslandschap zelf toont een multiscale structuur: exponentiële gladheid onder kleine verstoringen (lokaal vlakke bekken), overgaand naar power-law ruwheid op grotere schalen. Zelfs de timing van grote updates volgt zware-tailed statistieken—grote leerevenementen clusteren samen in plaats van willekeurig voor te komen, met exponenten rond 2.5–2.7.
Wat dit conceptueel bevredigend maakt, is de theoretische afleiding vanuit de eerste principes. Beginnend vanuit entropiemaximalisatie onder een informatiebeperking, en gebruikmakend van een pad-integrale formulering van KL-divergentie door parameter ruimte, herstellen de auteurs precies het waargenomen schaalgedrag. Geen fine-tuning, geen ad hoc aannames.
De implicaties snijden diep: leren van neurale netwerken is niet alleen optimalisatie—het is een nonequilibrium fysisch proces dat wordt beheerst door dezelfde statistische principes die complexe systemen in de natuur vormgeven. Dit begrijpen zou de ontwikkeling van efficiëntere leeralgoritmen kunnen begeleiden en uitleggen waarom SGD beter generaliseert dan adaptieve methoden die grote verkennende updates onderdrukken.
Paper:

Boven
Positie
Favorieten
