Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Zajímavý výzkum od Meta o trendech škálování hardwaru.
Více GPU neznamená vždy rychlejší trénink.
Výchozí přístup k škálování tréninku LLM dnes zůstává tím, že se problém více zabývá. Více akcelerátorů, více paralelismu, více výpočtů.
Nicméně existuje strop, který většina týmů nevidí, dokud ho nedosáhnou.
Tento nový výzkum ukazuje, že škálování celkového počtu akcelerátorů pro trénování velkých modelů rychle přináší klesající výnosy, a to i při optimalizovaném hardwaru a strategiích paralelizace.
Výzkumníci testovali modely Llama-2 (parametry 1B až 70B) na 8 až 2 048 GPU pokrývajících hardware V100, A100 a H100. Co zjistili? Při škálování z 128 na 2 048 GPU klesla propustnost o 37,22 %, zatímco spotřeba energie na GPU klesla pouze o 5,87 %.
Příčinou je režijní režie komunikace. Ve velkých měřítkách se operace AllGather a ReduceScatter (dva MPI primitiva) stávají úzkými hrdly. Většina komunikace je vystavena a výpočty už latenci nedokážou skrýt.
Paradoksalně se strategie paralelismu modelů (tenzorový a pipeline paralelismus na stupních 2–4), které se dříve považovaly za snižující využití hardwaru, ve skutečnosti stávají ve větším měřítku vhodnějšími. Snižují vystavenou komunikaci ve srovnání s čistým datovým paralelismem.
Na novějším hardwaru se využití zhoršuje, ne zlepšuje. Využití FLOPS modelů kleslo z 59,67 % na A100 na 40,77 % na H100; Rychlejší čipy zveřejňují větší komunikační režii.
Proč je to důležité: Přidání více GPU přináší špatný okrajový výkon za každou další jednotku energie nebo GPU-hodinu. Týmy, které škálují na tisíce akcelerátorů, by měly pečlivě přehodnotit strategie paralelizace, místo aby předpokládaly, že více hardwaru znamená rychlejší školení.

Top
Hodnocení
Oblíbené

