Uusi julkaisu: nanochat-minisarja v1 Oikea tapa ajatella LLM:iä on, että et optimoi yksittäiselle mallille, vaan perhemalleille, joita ohjataan yhdellä mittarilla (laskentamäärä, jonka haluat käyttää), jotta saavutetaan monotonisesti parempia tuloksia. Tämä mahdollistaa huolellisen tieteellisen tutkimuksen skaalaalaeista, ja lopulta tämä antaa sinulle varmuuden siitä, että kun maksat "isosta juoksusta", ekstrapolointi toimii ja rahasi käytetään hyvin. Nanochatin ensimmäisessä julkisessa julkaisussa keskityin päästä päähän -putkessa, joka pyörittää koko LLM-putkea kaikkine vaiheineen. Nyt, kun olin tehnyt YOLO:n muutaman kierroksen aiemmin, palaan vielä kehittämään joitakin osia, joita kiihdytin läpi, aloittaen tietenkin esiharjoittelusta, joka on sekä laskennallisesti raskas että kriittinen älykkyyden ja tiedon perusta näissä malleissa. Paikallisesti säädettyäni joitakin hyperparametreja poistin useita malleja, jotka korjasivat FLOPien budjetin. (Jokaista FLOP-tavoitetta kohden voit kouluttaa pienen mallin pitkään tai ison mallin lyhyeksi aikaa.) Käy ilmi, että nanochat noudattaa erittäin hyviä skaalauslakeja, käytännössä toistaen Chinchilla-paperikaaviot: Joka on vasta pieni versio tästä juonesta Chinchillasta: Erittäin tärkeää ja rohkaisevaa on, että eksponentti N (parametrit) ja D (tokenit) välillä on yhtä suuri arvossa ~=0.5, joten aivan kuten Chinchillassa, saamme yhden (laskentariippumaton) vakion, joka yhdistää mallin koon token-harjoitushorisontteihin. Chinchillassa tämä mitattiin 20. Nanochatissa se näyttää olevan 8! Kun voimme kouluttaa optimaalisia laskennallisia malleja, pyyhkäisin minisarjan d10:stä d20:een, jotka ovat nanochat-kokoja ja voivat tehdä 2**19 ~= 0,5M eräkokoja 8XH100-solmulla ilman gradienttien kertymistä. Saamme kauniit, ei-iterektointiset harjoituskuvaajat jokaiselle mallikoolle. Hauska osa on sitten yhdistää tämä minisarja v1 GPT-2- ja GPT-3-minisarjoihin, jotta tiedämme olevamme oikealla tiellä. Validointihäviöllä on monia ongelmia, eikä niitä voi verrata siihen, joten käytän sen sijaan CORE-pisteitä (DCLM-paperista). Laskin sen GPT-2:lle ja arvioin GPT-3:lle, mikä mahdollistaa nanochatin sijoittamisen nätisti ja samalle asteikolle: Tämän minisarjan kokonaishinta on vain ~$100 (~4 tuntia 8XH100:lla). Nämä kokeet antavat meille varmuuden siitä, että kaikki toimii melko hyvin ja että jos maksamme enemmän (käännämme säädinta), saamme yhä parempia malleja. Yhteenveto: voimme kouluttaa optimaalisia minisarjoja laskennassa ja yhdistää ne GPT-2/3:een objektiivisten CORE-pisteiden avulla, mutta lisäparannuksia on toivottavaa ja tarpeellista. Esimerkiksi GPT-2:n sovittaminen vaatii tällä hetkellä ~$500, mutta mielestäni <$100 pitäisi olla mahdollista tehdä enemmän työtä. Koko postaus paljon yksityiskohtaisemmin löytyy täältä: Kaikki viritys ja koodi työnnetään masterointiin, ja ihmiset voivat toistaa ne scaling_laws .sh- ja minisarjoilla .sh bash-skripteillä.