Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Miksi neuroverkot oppivat kaaoksen rajalla
Kun koulutat neuroverkkoa, parametripäivitykset eivät yleensä jakaudu. Ne ovat raskaita – harvinaiset suuret hypyt korostavat monia pieniä säätöjä. Tämä kaava näkyy MLP:issä, CNN:issä ja Transformereissa, MNISTissä ja CIFAR-10:ssä, varhaisessa nopeassa oppimisessa ja myöhäisessä konvergenssissa. Se on epäilyttävän universaali.
Xin-Ya Zhang ja Chao Tang väittävät, ettei kyse ole stokastisesta liukuvärin laskusta tai mini-eräkohinasta. Se on itseorganisoituvan kriittisyyden tunnusmerkki, joka syntyy perustavanlaatuisesta kompromissista: maksimaalinen entropiaperiaate kannustaa verkostoa tutkimaan vapaasti, kun taas molemminpuolinen tiedonrajoite pakottaa päivitykset pysymään tehtävän kannalta merkityksellisinä. Kun nämä kaksi voimaa tasapainotetaan, saadaan voimalakitilastoja – samaa skaalautumiskäyttäytymistä kuin maanjäristyksissä, hermosoluvyöryissä ja rahoitusmarkkinoilla.
Todisteet ovat vakuuttavia. Potenssilain eksponentti pysyy hämmästyttävän vakaana koko koulutuksen ajan, vaikka tappiot vähenevät kertaluokalla. Häviömaisema itsessään osoittaa monitasoista rakennetta: eksponentiaalista sileyttä pienissä häiriöissä (paikallisesti tasaiset altaat), siirtyminen potenssilain karkuuteen suuremmissa mittakaavoissa. Jopa suurten päivitysten ajoitus noudattaa raskaita tilastoja—suuret oppimistapahtumat ryhmittyvät yhteen satunnaisuuden sijaan, eksponenttien ollessa noin 2,5–2,7.
Tämän tekee käsitteellisesti tyydyttäväksi teoreettinen johdanto ensimmäisistä periaatteista. Aloittaen entropian maksimoinnista informaatiorajoitteen alla ja käyttäen polkuintegraalimuotoa KL-divergenssistä parametriavaruudessa, kirjoittajat palauttavat tarkalleen havaitun skaalauskäyttäytymisen. Ei hienosäätöä, ei satunnaisia oletuksia.
Seuraukset ovat syvällisiä: neuroverkkojen oppiminen ei ole pelkkää optimointia – se on epätasapainoinen fysikaalinen prosessi, jota ohjaavat samat tilastolliset periaatteet, jotka muovaavat monimutkaisia järjestelmiä luonnossa. Tämän ymmärtäminen voisi ohjata tehokkaampien oppimisalgoritmien suunnittelua ja selittää, miksi SGD yleistää paremmin kuin adaptiiviset menetelmät, jotka estävät suuret tutkimuspäivitykset.
Artikkeli:

Johtavat
Rankkaus
Suosikit
