一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Meta 的有趣研究關於硬體擴展趨勢。更多的 GPU 並不總是意味著更快的訓練。目前擴展 LLM 訓練的默認方法仍然是將更多硬體投入問題中。更多的加速器、更多的並行性、更多的計算。然而，大多數團隊在達到上限之前並不會意識到這一點。這項新研究表明，對於大型模型訓練，擴大加速器的總數會迅速產生遞減收益，即使使用了優化的硬體和並行化策略。研究人員測試了 Llama-2 模型（1B 到 70B 參數），在 8 到 2,048 個 GPU 上進行測試，涵蓋 V100、A100 和 H100 硬體。他們發現什麼？當從 128 擴展到 2,048 個 GPU 時，吞吐量下降了 37.22%，而每個 GPU 的功耗僅下降了 5.87%。罪魁禍首是通信開銷。在大規模下，AllGather 和 ReduceScatter（兩個 MPI 原語）操作成為瓶頸。大多數通信變得暴露，計算無法再隱藏延遲。反直覺的是，之前認為可以減少硬體利用率的模型並行策略（張量和管道並行性在 2-4 度）在擴展時實際上變得更可取。與純數據並行性相比，它們減少了暴露的通信。在更新的硬體上，利用率變得更糟，而不是更好。模型 FLOPS 利用率從 A100 的 59.67% 下降到 H100 的 40.77%；更快的芯片暴露了更多的通信開銷。為什麼這很重要：增加更多的 GPU 在每個額外的功率或 GPU 小時上提供了較差的邊際性能。擴展到數千個加速器的團隊需要仔細重新考慮並行化策略，而不是假設更多的硬體等於更快的訓練。