Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Une recherche intéressante de Meta sur les tendances de mise à l'échelle du matériel.
Plus de GPU ne signifie pas toujours un entraînement plus rapide.
L'approche par défaut pour la mise à l'échelle de l'entraînement des LLM aujourd'hui reste de jeter plus de matériel sur le problème. Plus d'accélérateurs, plus de parallélisme, plus de calcul.
Cependant, il y a un plafond que la plupart des équipes ne voient pas jusqu'à ce qu'elles l'atteignent.
Cette nouvelle recherche démontre que l'augmentation du nombre total d'accélérateurs pour l'entraînement de grands modèles entraîne rapidement des rendements décroissants, même avec du matériel optimisé et des stratégies de parallélisation.
Les chercheurs ont testé les modèles Llama-2 (de 1B à 70B paramètres) sur 8 à 2 048 GPU utilisant du matériel V100, A100 et H100. Que ont-ils trouvé ? En passant de 128 à 2 048 GPU, le débit a diminué de 37,22 % tandis que la consommation d'énergie par GPU n'a chuté que de 5,87 %.
Le coupable est la surcharge de communication. À grande échelle, les opérations AllGather et ReduceScatter (deux primitives MPI) deviennent des goulets d'étranglement. La majorité de la communication devient exposée, et le calcul ne peut plus cacher la latence.
Contre-intuitivement, les stratégies de parallélisme de modèle (parallélisme tensoriel et de pipeline à des degrés 2-4) qui étaient auparavant considérées comme réduisant l'utilisation du matériel deviennent en réalité préférables à grande échelle. Elles réduisent la communication exposée par rapport au pur parallélisme de données.
Sur le matériel plus récent, l'utilisation s'aggrave, pas s'améliore. L'utilisation des FLOPS du modèle est tombée de 59,67 % sur A100 à 40,77 % sur H100 ; des puces plus rapides exposent plus de surcharge de communication.
Pourquoi c'est important : Ajouter plus de GPU offre de mauvaises performances marginales par unité supplémentaire de puissance ou d'heure GPU. Les équipes qui passent à des milliers d'accélérateurs doivent reconsidérer soigneusement les stratégies de parallélisation plutôt que de supposer que plus de matériel équivaut à un entraînement plus rapide.

Meilleurs
Classement
Favoris

