Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ricerca interessante da Meta sulle tendenze di scalabilità dell'hardware.
Più GPU non significa sempre un addestramento più veloce.
L'approccio predefinito per scalare l'addestramento dei LLM oggi rimane quello di lanciare più hardware sul problema. Più acceleratori, più parallelismo, più potenza di calcolo.
Tuttavia, c'è un limite che la maggior parte dei team non vede fino a quando non lo colpisce.
Questa nuova ricerca dimostra che scalare il numero totale di acceleratori per l'addestramento di modelli di grandi dimensioni porta rapidamente a rendimenti decrescenti, anche con hardware ottimizzato e strategie di parallelizzazione.
I ricercatori hanno testato i modelli Llama-2 (da 1B a 70B parametri) su 8 a 2.048 GPU, utilizzando hardware V100, A100 e H100. Cosa hanno scoperto? Quando si scala da 128 a 2.048 GPU, la capacità di elaborazione è diminuita del 37,22% mentre il consumo di energia per GPU è sceso solo del 5,87%.
Il colpevole è l'overhead di comunicazione. A grandi scale, le operazioni AllGather e ReduceScatter (due primitive MPI) diventano colli di bottiglia. La maggior parte della comunicazione diventa esposta e il calcolo non può più nascondere la latenza.
Contrariamente all'intuizione, le strategie di parallelismo del modello (parallelismo tensoriale e di pipeline a gradi 2-4) che si pensava precedentemente riducessero l'utilizzo dell'hardware diventano in realtà preferibili su larga scala. Riducono la comunicazione esposta rispetto al puro parallelismo dei dati.
Su hardware più recente, l'utilizzo peggiora, non migliora. L'utilizzo dei FLOPS del modello è sceso dal 59,67% su A100 al 40,77% su H100; chip più veloci espongono più overhead di comunicazione.
Perché è importante: Aggiungere più GPU fornisce scarse prestazioni marginali per ogni unità aggiuntiva di potenza o ora GPU. I team che scalano a migliaia di acceleratori devono riconsiderare attentamente le strategie di parallelizzazione piuttosto che assumere che più hardware equivalga a un addestramento più veloce.

Principali
Ranking
Preferiti

