Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aktiverade fp8-träning för +4,3 % förbättring till "tid till GPT-2", nu ner till 2,91 timmar. Det är också värt att notera att om du använder 8XH100 spotinstanspriser kostar denna GPT-2-repro egentligen bara ~20 dollar. Så det här är spännande –
GPT-2 (för 7 år sedan): för farligt att släppa.
GPT-2 (idag): ny MNIST! :)
Det här kan väl gå långt under en timme.
Några ord till på fp8, det var lite knepigare än jag trodde och det tog ett tag att nå fram till det och även nu är jag inte helt säker på om det är en bra idé på grund av mindre övergripande stöd för det. På pappret är fp8 på H100 dubbelt så mycket som FLOPS, men i praktiken är det mycket mindre. Vi är inte 100% beräkningsbundna i själva träningskörningen, det finns extra overhead från skalomvandlingar, GEMM:erna är inte tillräckligt stora på GPT-2-nivå för att det ska vara värt det, och naturligtvis – vid lägre precision är kvaliteten på varje steg mindre. För ett radskalningsrecept var fp8 vs bf16 förlustkurvorna ganska jämna, men det gick långsammare i step-net. Vid tensorskalning separerades förlustkurvorna mer (dvs. varje steg är av sämre kvalitet), men vi får nu åtminstone en hastighetsökning (~7,3%). Du kan naivt återhämta prestationen genom att höja träningshorisonten (du tränar för fler steg, men varje steg är snabbare) och hoppas att du i topp kommer ut med vinst. I det här fallet och överlag, efter att ha lekt lite med dessa recept och träningshorisonter, har jag hittills fått ~5% hastighetsökning. Torchao rapporterar i sin artikel att Llama3-8B har en FP8-träningsökning på 25 % (jämfört med mina ~7,3 % utan att ta hänsyn till kapacitet), vilket är närmare det jag hoppades på från början, även om Llama3-8B är en mycket större modell. Det här är förmodligen inte slutet på FP8-sagan. Det borde vara möjligt att förbättra saker genom att välja exakt vilka lager man ska applicera och vara mer noggrann med numeriken över nätverket.
Topp
Rankning
Favoriter
