Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mielenkiintoista tutkimusta Metalta laitteiston skaalaustrendeistä.
Enemmän näytönohjaimia ei aina tarkoita nopeampaa koulutusta.
Nykyinen oletuslähestymistapa LLM-koulutuksen skaalaamiseen on edelleen lisälaitteiston heittäminen ongelmaan. Enemmän kiihdyttimiä, enemmän rinnakkaisuuksia, enemmän laskentaa.
Kuitenkin on olemassa katto, jonka useimmat joukkueet eivät näe ennen kuin ne saavuttavat sen.
Tämä uusi tutkimus osoittaa, että kiihdyttimien kokonaismäärän skaalaaminen suurten mallien koulutuksessa tuottaa nopeasti väheneviä tuottoja, vaikka laitteisto- ja rinnakkaisstrategiat olisivat optimoituja.
Tutkijat testasivat Llama-2-malleja (1B–70B parametrit) 8–2 048 GPU:lla, jotka kattavat V100-, A100- ja H100-laitteiston. Mitä he löysivät? Kun GPU:ta skaalattiin 128:sta 2 048:aan, läpimenokyky laski 37,22 %, kun taas näytönohjaimen virrankulutus laski vain 5,87 %.
Syyllinen on viestintäkulut. Suurissa mittakaavoissa AllGather- ja ReduceScatter-toiminnot (kaksi MPI-primitiiviä) muodostuvat pullonkauloiksi. Suurin osa viestinnästä paljastuu, eikä laskenta enää pysty peittämään viivettä.
Vastoin intuitiota mallintavat rinnakkaisuusstrategiat (tensori- ja putkistoparallelismi asteilla 2–4), joiden aiemmin ajateltiin vähentävän laitteiston käyttöä, ovat itse asiassa suositeltavia laajassa mittakaavassa. Ne vähentävät altistunutta viestintää verrattuna puhtaaseen datan rinnakkaisuuteen.
Uudemmilla laitteilla käyttöaste heikkenee, ei parane. Mallin FLOPS-käyttöaste laski 59,67 %:sta A100:lla 40,77 %:iin H100:lla; Nopeammat sirut aiheuttavat enemmän viestintäkuormaa.
Miksi sillä on merkitystä: Useampien näytönohjainten lisääminen tuottaa heikkoa rajasuorituskykyä per lisätehoyksikkö tai GPU-tunti. Tiimien, jotka skaalaavat tuhansiin kiihdyttimiin, täytyy harkita rinnakkaisstrategioita huolellisesti sen sijaan, että olettaisiin, että enemmän laitteistoa tarkoittaa nopeampaa koulutusta.

Johtavat
Rankkaus
Suosikit

