Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
nanochat kan nu GPT-2 grade LLM trainen voor <<$100 (~$73, 3 uur op een enkele 8XH100 node).
GPT-2 is gewoon mijn favoriete LLM omdat het de eerste keer is dat de LLM-stack samenkomt in een herkenbaar moderne vorm. Het is dus een beetje een vreemde en blijvende obsessie van mij geworden om een model te trainen tot GPT-2 capaciteiten, maar dan veel goedkoper, met de voordelen van ~7 jaar vooruitgang. In het bijzonder vermoedde ik dat het vandaag de dag mogelijk zou moeten zijn om er een te trainen voor <<$100.
Oorspronkelijk in 2019 werd GPT-2 door OpenAI getraind op 32 TPU v3 chips gedurende 168 uur (7 dagen), met $8/uur/TPUv3 toen, voor een totale kosten van ongeveer $43K. Het behaalt een CORE-score van 0.256525, wat een ensemble-metric is geïntroduceerd in het DCLM-papier over 22 evaluaties zoals ARC/MMLU/etc.
Met de laatste verbeteringen die zijn samengevoegd in nanochat (veel daarvan afkomstig uit de gemodificeerde nanogpt repo), kan ik nu een hogere CORE-score bereiken in 3.04 uur (~$73) op een enkele 8XH100 node. Dit is een kostenreductie van 600X over 7 jaar, d.w.z. de kosten om GPT-2 te trainen vallen ongeveer 2.5X elk jaar. Ik denk dat dit waarschijnlijk een onderschatting is omdat ik nog steeds relatief regelmatig meer verbeteringen vind en ik een achterstand heb van meer ideeën om uit te proberen.
Een langer bericht met veel details van de betrokken optimalisaties en aanwijzingen over hoe te reproduceren is hier:
Geïnspireerd door gemodificeerde nanogpt, heb ik ook een ranglijst gemaakt voor "tijd tot GPT-2", waar dit eerste "Jan29" model entry #1 is met 3.04 uur. Het zal leuk zijn om hier verder op te itereren en ik verwelkom hulp! Mijn hoop is dat nanochat kan groeien tot een zeer mooie/schone en afgestelde experimentele LLM-harnas voor het prototypen van ideeën, voor plezier, en natuurlijk voor leren.
De grootste verbeteringen van dingen die direct uit de doos werkten en simpelweg onmiddellijk winst opleverden waren 1) Flash Attention 3 kernels (sneller, en laat window_size kwarg toe om afwisselende aandachtspatronen te krijgen), Muon optimizer (ik heb ongeveer 1 dag geprobeerd het te verwijderen en alleen AdamW te gebruiken en dat lukte me niet), residuele paden en skip-verbindingen die worden beheerd door leerbare scalars, en waarde-embeddings. Er waren veel andere kleinere dingen die zich opstapelden.
Afbeelding: semi-gerelateerde eye candy van het afleiden van de schaalwetten voor de huidige nanochat model miniserie, mooi en bevredigend!

Boven
Positie
Favorieten
