Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Interesujące badania przeprowadzone przez Meta na temat trendów w skalowaniu sprzętu. Więcej GPU nie zawsze oznacza szybsze szkolenie. Domyślne podejście do skalowania szkolenia LLM dzisiaj polega na dodawaniu większej ilości sprzętu do problemu. Więcej akceleratorów, więcej równoległości, więcej mocy obliczeniowej. Jednak istnieje sufit, którego większość zespołów nie dostrzega, dopóki w niego nie uderzy. Te nowe badania pokazują, że zwiększanie całkowitej liczby akceleratorów do szkolenia dużych modeli szybko przynosi malejące zwroty, nawet przy zoptymalizowanym sprzęcie i strategiach równoleglenia. Badacze testowali modele Llama-2 (od 1B do 70B parametrów) na 8 do 2,048 GPU, obejmujących sprzęt V100, A100 i H100. Co odkryli? Przy skalowaniu z 128 do 2,048 GPU, przepustowość spadła o 37,22%, podczas gdy pobór mocy na GPU spadł tylko o 5,87%. Winowajcą jest narzut komunikacyjny. Przy dużych skalach operacje AllGather i ReduceScatter (dwa prymitywy MPI) stają się wąskimi gardłami. Większość komunikacji staje się widoczna, a obliczenia nie mogą już ukryć opóźnienia. Przeciwnie do intuicji, strategie równoległości modelu (równoległość tensorowa i potokowa na poziomach 2-4), które wcześniej uważano za zmniejszające wykorzystanie sprzętu, w rzeczywistości stają się preferowane w skali. Zmniejszają one widoczną komunikację w porównaniu do czystej równoległości danych. Na nowszym sprzęcie wykorzystanie się pogarsza, a nie poprawia. Wykorzystanie FLOPS modelu spadło z 59,67% na A100 do 40,77% na H100; szybsze chipy ujawniają więcej narzutu komunikacyjnego. Dlaczego to ma znaczenie: Dodawanie większej ilości GPU zapewnia słabe marginalne osiągi na dodatkową jednostkę mocy lub GPU-godzinę. Zespoły skalujące do tysięcy akceleratorów muszą starannie przemyśleć strategie równoleglenia, zamiast zakładać, że więcej sprzętu oznacza szybsze szkolenie.

Najlepsze

Ranking

Ulubione