Meta 的有趣研究關於硬體擴展趨勢。 更多的 GPU 並不總是意味著更快的訓練。 目前擴展 LLM 訓練的默認方法仍然是將更多硬體投入問題中。更多的加速器、更多的並行性、更多的計算。 然而,大多數團隊在達到上限之前並不會意識到這一點。 這項新研究表明,對於大型模型訓練,擴大加速器的總數會迅速產生遞減收益,即使使用了優化的硬體和並行化策略。 研究人員測試了 Llama-2 模型(1B 到 70B 參數),在 8 到 2,048 個 GPU 上進行測試,涵蓋 V100、A100 和 H100 硬體。他們發現什麼?當從 128 擴展到 2,048 個 GPU 時,吞吐量下降了 37.22%,而每個 GPU 的功耗僅下降了 5.87%。 罪魁禍首是通信開銷。在大規模下,AllGather 和 ReduceScatter(兩個 MPI 原語)操作成為瓶頸。大多數通信變得暴露,計算無法再隱藏延遲。 反直覺的是,之前認為可以減少硬體利用率的模型並行策略(張量和管道並行性在 2-4 度)在擴展時實際上變得更可取。與純數據並行性相比,它們減少了暴露的通信。 在更新的硬體上,利用率變得更糟,而不是更好。模型 FLOPS 利用率從 A100 的 59.67% 下降到 H100 的 40.77%;更快的芯片暴露了更多的通信開銷。 為什麼這很重要:增加更多的 GPU 在每個額外的功率或 GPU 小時上提供了較差的邊際性能。擴展到數千個加速器的團隊需要仔細重新考慮並行化策略,而不是假設更多的硬體等於更快的訓練。