Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 8
Gradienttien keskiarvotuksen lisäksi rinnakkaisoptimoinnissa: parantunut kestävyys gradienttisovitussuodatuksen avulla
Suositteli @FrancoisChauba1 eilisen artikkelin jälkeen.
Ehdottaa gradienttisuodatusta (GAF), jossa riippumattomat gradientit, joilla on suuret kosinietäisyydet, suodatetaan pois keskiarvon sijaan. Tämä tarkoittaa, että jotkut lasketut gradientit, jotka voivat auttaa harjoitusten menetyksessä, ovat aktiivisesti haitallisia yleistykselle, ja ne tulisi hylätä sen sijaan, että niitä käytettäisiin.
Tämä esitetään mikroerissä moni-GPU-hajautetussa koulutuksessa, mutta sama ajatus tulisi päteä minkä tahansa koulutuserän osioihin.
Sattumalta kokeilin juuri jotain samankaltaista – leikata gradientteja IID:n toistopuskurista, jotta ne eivät ole ristiriidassa nykyisen online-kokemuksen näytteen gradientin kanssa. Se ei ole vielä tuottanut positiivisia tuloksia, mutta minulla on vielä muutama näkökulma kokeiltavana.
Teorian taustalla oleva havainto on, että jos koulutat kuvaluokittajan täysin satunnaisella kohinalla ja satunnaisnimityksillä, sillä on 100 % koulutustarkkuus ja vain satunnainen satunnainen validointitarkkuus, selvästi liian sopiva harjoitusdataan. He huomauttavat, että jos tarkastellaan minieräiden kosini-samankaltaisuutta tässä overfit-mallissa, se on aina yli 0,99, eli käytännössä ortogonaalinen. Jos ortogonaaliset gradientit ovat luotettava merkki ylisovituksesta, ehkä voit ohittaa minerät, joissa on ortogonaaliset gradientit, ja vähentää ylisovitusta / lisätä yleistystä.
Yksinkertaisimmassa tapauksessa kahdesta mikroerästä kyse on joko molempien säilyttämisestä tai hylkäämisestä kosini-samankaltaisuuden perusteella, mutta mikroerissä ehdotetaan kaikkien mikroerien vertailua ensimmäiseen ja kaikkien testin läpäisevien keskiarvojen laskemista.
Jotkut eräkokoa koskevat kommentit ovat ristiriidassa #PaperADay 5:n väitteen kanssa, jonka mukaan eräkoon skaalauksen epäonnistumiset johtuvat beta2:n säätämättömyydestä, mutta perustelut eivät ole läheskään yhtä tärkeitä kuin empiirinen suorituskyky. Luultavasti kokeilen jotain tällaista muutaman päivän sisällä meidän oikean elämän koodipohjassa.
Johtavat
Rankkaus
Suosikit
