Metaのハードウェアスケーリングトレンドに関する興味深い研究です。 GPUが増えても必ずしも学習速度が速くなるわけではありません。 今日のLLMトレーニングのスケーリングのデフォルトアプローチは、問題により多くのハードウェアを投入することです。より多くのアクセラレータ、より多くの並列処理、より多くの計算。 しかし、多くのチームがその限界に到達するまで気づかないところがあります。 この新しい研究は、大規模モデルのトレーニングで加速器の総数を迅速に拡大すると、最適化されたハードウェアや並列化戦略があっても、効果が逓減することを示しています。 研究者たちは、V100、A100、H100ハードウェアにまたがる8,048枚のGPUでLlama-2モデル(1Bから70Bのパラメータ)をテストしました。何が見つかったのですか?GPU数を128から2,048にスケールアップした際、スループットは37.22%減少した一方で、GPUあたりの消費電力はわずか5.87%減少しました。 原因は通信のオーバーヘッドです。大規模では、AllGatherとReduceScatter(2つのMPIプリミティブ)操作がボトルネックとなります。通信の大部分が露出し、計算では遅延を隠せなくなります。 直感に反して、以前はハードウェア利用率を下げると考えられていたモデル並列性戦略(テンソルやパイプライン並列度は2〜4度)が、大規模化するとむしろ好ましいものになっています。純粋なデータ並列性と比べて、露出する通信を減らします。 新しいハードウェアでは、利用率は良くなるどころか悪化します。モデルFLOPS利用率はA100の59.67%からH100の40.77%に低下しました。高速チップほど通信のオーバーヘッドが増えます。 なぜ重要なのか:GPUを増やすと、単位電力やGPU時間あたりの限界性能が低下します。数千台のアクセラレーターにスケールするチームは、ハードウェアが増えればトレーニングが速くなると考えるのではなく、並列化戦略を慎重に再考する必要があります。