Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A activat antrenamentul FP8 pentru o îmbunătățire de +4,3% la "timp până la GPT-2", care a scăzut la 2,91 ore acum. De asemenea, merită menționat că dacă folosești prețuri de instanță spot 8XH100, această reproducere GPT-2 costă de fapt doar ~20$. Deci asta e interesant -
GPT-2 (acum 7 ani): prea periculos pentru a fi lansat.
GPT-2 (astăzi): noul MNIST! :)
Cu siguranță poate dura mult sub 1 oră.
Câteva cuvinte în plus despre fp8, a fost puțin mai dificil decât mă așteptam și mi-a luat ceva timp să ajung la el, iar chiar și acum nu sunt 100% sigur dacă e o idee bună din cauza suportului general mai redus. Pe hârtie, FP8 pe H100 este de două ori mai mare decât FLOPS, dar în practică este mult mai puțin. Nu suntem 100% limitați de calcul în timpul antrenamentului propriu-zis, există un overhead suplimentar din cauza conversiilor suplimentare la scară, GEMM-urile nu sunt suficient de mari la scara GPT-2 pentru a face ca overhead-ul să merite clar, iar desigur - la o precizie mai mică calitatea fiecărui pas este mai mică. Pentru rețeta de scalare pe rânduri, curbele de pierdere fp8 vs bf16 erau destul de apropiate, dar era un pas net mai lent. Pentru scalarea tensorială, curbele de pierdere s-au separat mai mult (adică fiecare pas este de calitate mai slabă), dar acum cel puțin obținem o accelerare (~7,3%). Poți recupera naiv performanța deplasând orizontul de antrenament (te antrenezi pentru mai mulți pași, dar fiecare pas este mai rapid) și speri că la poartă vei ieși învingător. În acest caz și per total, jucându-mă puțin cu aceste rețete și orizonturile de antrenament, până acum am ajuns la o accelerare de ~5%. Torchao, în lucrarea lor, raportează o accelerare a antrenamentului Llama3-8B fp8 de 25% (față de ~7,3% la mine fără a lua în calcul capabilitatea), ceea ce este mai aproape de ceea ce speram inițial, deși Llama3-8B este un model mult mai mare. Probabil că acesta nu este sfârșitul saga FP8. Ar trebui să fie posibil să îmbunătățești lucrurile alegând exact pe ce straturi să aplici și fiind mai atent la numerele din rețea.
Limită superioară
Clasament
Favorite
