Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
fp8-training ingeschakeld voor +4,3% verbetering van "tijd tot GPT-2", nu teruggebracht tot 2,91 uur. Het is ook vermeldenswaard dat als je gebruikmaakt van 8XH100 spot instance prijzen, deze GPT-2 reproductie echt maar ~$20 kost. Dit is dus spannend -
GPT-2 (7 jaar geleden): te gevaarlijk om vrij te geven.
GPT-2 (vandaag): nieuwe MNIST! :)
Zeker kan dit goed onder 1 uur gaan.
Een paar woorden over fp8, het was iets moeilijker dan ik had verwacht en het kostte me een tijdje om het te bereiken en zelfs nu ben ik niet 100% zeker of het een goed idee is vanwege de minder algemene ondersteuning ervoor. Op papier is fp8 op H100 2X de FLOPS, maar in de praktijk is het veel minder. We zijn niet 100% compute bound in de daadwerkelijke training run, er is extra overhead van toegevoegde schaalconversies, de GEMMs zijn niet groot genoeg op GPT-2 schaal om de overhead duidelijk de moeite waard te maken, en natuurlijk - bij lagere precisie is de kwaliteit van elke stap kleiner. Voor de rowwise scaling recept waren de fp8 vs bf16 verliescurves vrij dicht bij elkaar, maar het was net iets langzamer. Voor tensorwise scaling scheidden de verliescurves meer (d.w.z. elke stap is van slechtere kwaliteit), maar we krijgen nu in ieder geval een versnelling (~7,3%). Je kunt de prestaties naief herstellen door de trainingshorizon te verhogen (je traint voor meer stappen, maar elke stap is sneller) en hopen dat je netto vooruitkomt. In dit geval en in het algemeen, door een beetje te spelen met deze recepten en trainingshorizons, eindigde ik tot nu toe met ~5% versnelling. torchao meldt in hun paper een Llama3-8B fp8 trainingsversnelling van 25% (tegen mijn ~7,3% zonder rekening te houden met capaciteit), wat dichter bij is wat ik aanvankelijk hoopte, hoewel Llama3-8B een veel groter model is. Dit is waarschijnlijk niet het einde van de fp8-saga. Het zou mogelijk moeten zijn om dingen te verbeteren door precies te kiezen op welke lagen het moet worden toegepast, en zorgvuldiger om te gaan met de numeriek over het netwerk.
Boven
Positie
Favorieten
