热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
Meta 关于硬件扩展趋势的有趣研究。
更多的 GPU 并不总是意味着更快的训练。
目前扩展 LLM 训练的默认方法仍然是向问题投入更多硬件。更多的加速器,更多的并行性,更多的计算。
然而,大多数团队在达到上限之前并没有意识到这一点。
这项新研究表明,扩展大型模型训练的加速器总数很快会导致收益递减,即使在优化的硬件和并行化策略下也是如此。
研究人员在 8 到 2,048 个 GPU 上测试了 Llama-2 模型(1B 到 70B 参数),涵盖了 V100、A100 和 H100 硬件。他们发现了什么?当从 128 个 GPU 扩展到 2,048 个 GPU 时,吞吐量下降了 37.22%,而每个 GPU 的功耗仅下降了 5.87%。
罪魁祸首是通信开销。在大规模下,AllGather 和 ReduceScatter(两个 MPI 原语)操作成为瓶颈。大多数通信变得暴露,计算无法再隐藏延迟。
反直觉的是,之前认为可以减少硬件利用率的模型并行策略(张量和管道并行性在 2-4 的程度)在规模上实际上变得更可取。与纯数据并行性相比,它们减少了暴露的通信。
在更新的硬件上,利用率变得更差,而不是更好。模型 FLOPS 利用率从 A100 的 59.67% 降低到 H100 的 40.77%;更快的芯片暴露了更多的通信开销。
为什么这很重要:增加更多的 GPU 在每个额外的功率或 GPU 小时上提供了较差的边际性能。扩展到数千个加速器的团队需要仔细重新考虑并行化策略,而不是假设更多的硬件等于更快的训练。

热门
排行
收藏

