トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Metaのハードウェアスケーリングトレンドに関する興味深い研究です。
GPUが増えても必ずしも学習速度が速くなるわけではありません。
今日のLLMトレーニングのスケーリングのデフォルトアプローチは、問題により多くのハードウェアを投入することです。より多くのアクセラレータ、より多くの並列処理、より多くの計算。
しかし、多くのチームがその限界に到達するまで気づかないところがあります。
この新しい研究は、大規模モデルのトレーニングで加速器の総数を迅速に拡大すると、最適化されたハードウェアや並列化戦略があっても、効果が逓減することを示しています。
研究者たちは、V100、A100、H100ハードウェアにまたがる8,048枚のGPUでLlama-2モデル(1Bから70Bのパラメータ)をテストしました。何が見つかったのですか?GPU数を128から2,048にスケールアップした際、スループットは37.22%減少した一方で、GPUあたりの消費電力はわずか5.87%減少しました。
原因は通信のオーバーヘッドです。大規模では、AllGatherとReduceScatter(2つのMPIプリミティブ)操作がボトルネックとなります。通信の大部分が露出し、計算では遅延を隠せなくなります。
直感に反して、以前はハードウェア利用率を下げると考えられていたモデル並列性戦略(テンソルやパイプライン並列度は2〜4度)が、大規模化するとむしろ好ましいものになっています。純粋なデータ並列性と比べて、露出する通信を減らします。
新しいハードウェアでは、利用率は良くなるどころか悪化します。モデルFLOPS利用率はA100の59.67%からH100の40.77%に低下しました。高速チップほど通信のオーバーヘッドが増えます。
なぜ重要なのか:GPUを増やすと、単位電力やGPU時間あたりの限界性能が低下します。数千台のアクセラレーターにスケールするチームは、ハードウェアが増えればトレーニングが速くなると考えるのではなく、並列化戦略を慎重に再考する必要があります。

トップ
ランキング
お気に入り

