Hvorfor nevrale nettverk lærer på kanten av kaos Når du trener et nevralt nettverk, er parameteroppdateringer ikke normalt fordelt. De er tunge haler—sjeldne store hopp markerer mange små justeringer. Dette mønsteret vises på tvers av MLP-er, CNN-er og Transformers, over MNIST og CIFAR-10, over tidlig rask læring og sen konvergens. Det er mistenkelig universelt. Xin-Ya Zhang og Chao Tang hevder at dette ikke er en særhet ved stokastisk gradientnedstigning eller minibatch-støy. Det er et kjennetegn på selvorganisert kritikalitet, som oppstår fra en grunnleggende avveining: prinsippet om maksimal entropi presser nettverket til å utforske fritt, mens en gjensidig informasjonsbegrensning tvinger oppdateringer til å forbli oppgaverelevante. Balanserer du disse to kreftene, får du potenslovstatistikk—den samme skaleringsatferden som sees i jordskjelv, nevronale snøskred og finansmarkeder. Bevisene er overbevisende. Potenslovseksponenten forblir bemerkelsesverdig stabil gjennom hele treningen, selv om tapet faller med størrelsesordener. Selve tapslandskapet viser flerskalastruktur: eksponentiell jevnhet under små forstyrrelser (lokalt flate bassenger), overgang til maktlov-robusthet på større skalaer. Selv tidspunktet for store oppdateringer følger tunghalede statistikker—store læringshendelser samler seg i stedet for å skje tilfeldig, med eksponenter rundt 2,5–2,7. Det som gjør dette konseptuelt tilfredsstillende, er den teoretiske utledningen fra første prinsipper. Med utgangspunkt i entropimaksimering under en informasjonsbegrensning, og ved å bruke en sti-integral formulering av KL-divergens gjennom parameterrommet, gjenfinner forfatterne nøyaktig den observerte skaleringsatferden. Ingen finjustering, ingen ad hoc-antakelser. Implikasjonene går dypt: læring av nevrale nettverk er ikke bare optimalisering – det er en ikke-likevektsfysisk prosess styrt av de samme statistiske prinsippene som former komplekse systemer gjennom hele naturen. Å forstå dette kan veilede utformingen av mer effektive læringsalgoritmer og forklare hvorfor SGD generaliserer bedre enn adaptive metoder som undertrykker store utforskende oppdateringer. Artikkel: