Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nieuwe post: nanochat miniserie v1
De juiste manier om over LLM's na te denken is dat je niet optimaliseert voor een enkel specifiek model, maar voor een familie van modellen die worden gecontroleerd door een enkele draaiknop (de rekencapaciteit die je wilt besteden) om monotonisch betere resultaten te behalen. Dit stelt je in staat om zorgvuldige wetenschap van schaalwetten te doen en uiteindelijk is dit wat je het vertrouwen geeft dat wanneer je betaalt voor "de grote run", de extrapolatie zal werken en je geld goed besteed zal zijn. Voor de eerste publieke release van nanochat was mijn focus op een end-to-end pijplijn die de hele LLM-pijplijn met al zijn fasen uitvoert. Nu, na een paar eerdere runs te hebben gedaan, kom ik terug om enkele van de delen uit te werken die ik snel heb doorlopen, te beginnen natuurlijk met pretraining, wat zowel computationeel zwaar als cruciaal is als de basis van intelligentie en kennis in deze modellen.
Na het lokaal afstemmen van enkele hyperparameters, heb ik een aantal modellen doorlopen waarbij ik het FLOPs-budget heb vastgelegd. (Voor elk FLOPs-doel kun je een klein model lange tijd trainen, of een groot model korte tijd.) Het blijkt dat nanochat zich houdt aan zeer mooie schaalwetten, die in wezen de grafieken uit het Chinchilla-artikel reproduceren:
Wat gewoon een babyversie is van deze grafiek uit Chinchilla:
Heel belangrijk en bemoedigend is dat de exponent op N (parameters) en D (tokens) gelijk is aan ~=0.5, dus net als Chinchilla krijgen we een enkele (reken-onafhankelijke) constante die de modelgrootte relateert aan token-trainingshorizonten. In Chinchilla werd dit gemeten op 20. In nanochat lijkt het 8 te zijn!
Zodra we computationeel optimale modellen kunnen trainen, heb ik een miniserie van d10 tot d20 doorlopen, wat nanochat-groottes zijn die 2**19 ~= 0.5M batchgroottes kunnen doen op een 8XH100-node zonder gradientaccumulatie. We krijgen mooie, niet-onderbrekende trainingsgrafieken voor elke modelgrootte.
Dan is het leuke deel het relateren van deze miniserie v1 aan de GPT-2 en GPT-3 miniseries, zodat we weten dat we op de goede weg zijn. Validatieverlies heeft veel problemen en is niet vergelijkbaar, dus in plaats daarvan gebruik ik de CORE-score (uit het DCLM-artikel). Ik heb het berekend voor GPT-2 en geschat voor GPT-3, wat ons eindelijk in staat stelt om nanochat mooi en op dezelfde schaal te plaatsen:
De totale kosten van deze miniserie zijn slechts ~$100 (~4 uur op 8XH100). Deze experimenten geven ons vertrouwen dat alles redelijk goed werkt en dat als we meer betalen (de draaiknop draaien), we steeds betere modellen krijgen.
TLDR: we kunnen computationeel optimale miniseries trainen en deze relateren aan GPT-2/3 via objectieve CORE-scores, maar verdere verbeteringen zijn wenselijk en nodig. Bijv., het matchen van GPT-2 kost momenteel ~$500, maar imo zou het mogelijk moeten zijn om <$100 te doen met meer werk.
Volledige post met veel meer details is hier:
En al het afstemmen en de code is naar master gepusht en mensen kunnen deze reproduceren met scaling_laws .sh en miniseries .sh bash-scripts.




Boven
Positie
Favorieten
