Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Varför neurala nätverk lär sig vid kaosets gräns
När du tränar ett neuralt nätverk är parameteruppdateringar inte normalfördelade. De är tunga – sällsynta stora hopp markerar många små justeringar. Detta mönster förekommer över MLP, CNN och Transformers, över MNIST och CIFAR-10, över tidig snabbinlärning och sen konvergens. Det är misstänkt universellt.
Xin-Ya Zhang och Chao Tang hävdar att detta inte är en egenhet i stokastisk gradientnedstigning eller minibatch-brus. Det är ett kännetecken för självorganiserad kritikalitet, som uppstår ur en grundläggande avvägning: principen om maximal entropi driver nätverket att utforska fritt, medan en ömsesidig informationsbegränsning tvingar uppdateringar att förbli uppgiftsrelevanta. Balanserar man dessa två krafter, får man potenslagsstatistik – samma skalningsbeteende som ses vid jordbävningar, neurala laviner och finansmarknader.
Bevisen är övertygande. Potenslagsexponenten förblir anmärkningsvärt stabil under hela träningen, även när förlusten minskar med flera storleksordningar. Förlustlandskapet i sig visar multiskalig struktur: exponentiell släthet under små störningar (lokalt platta bassänger), övergång till potenslags-robusthet vid större skalor. Även tidpunkten för stora uppdateringar följer tungsvansade statistik – stora inlärningshändelser klustrar ihop istället för att inträffa slumpmässigt, med exponenter runt 2,5–2,7.
Det som gör detta konceptuellt tillfredsställande är den teoretiska härledningen från första principer. Med utgångspunkt från entropimaximering under en informationsbegränsning, och med hjälp av en väg-integral-formulering av KL-divergens genom parameterutrymme, återfår författarna exakt det observerade skalningsbeteendet. Ingen finjustering, inga ad hoc-antaganden.
Konsekvenserna går djupt: inlärning av neurala nätverk är inte bara optimering – det är en icke-jämviktsfysikalisk process styrd av samma statistiska principer som formar komplexa system i naturen. Att förstå detta kan vägleda utformningen av mer effektiva inlärningsalgoritmer och förklara varför SGD generaliserar bättre än adaptiva metoder som undertrycker stora utforskande uppdateringar.
Papper:

Topp
Rankning
Favoriter
