一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Meta 关于硬件扩展趋势的有趣研究。更多的 GPU 并不总是意味着更快的训练。目前扩展 LLM 训练的默认方法仍然是向问题投入更多硬件。更多的加速器，更多的并行性，更多的计算。然而，大多数团队在达到上限之前并没有意识到这一点。这项新研究表明，扩展大型模型训练的加速器总数很快会导致收益递减，即使在优化的硬件和并行化策略下也是如此。研究人员在 8 到 2,048 个 GPU 上测试了 Llama-2 模型（1B 到 70B 参数），涵盖了 V100、A100 和 H100 硬件。他们发现了什么？当从 128 个 GPU 扩展到 2,048 个 GPU 时，吞吐量下降了 37.22%，而每个 GPU 的功耗仅下降了 5.87%。罪魁祸首是通信开销。在大规模下，AllGather 和 ReduceScatter（两个 MPI 原语）操作成为瓶颈。大多数通信变得暴露，计算无法再隐藏延迟。反直觉的是，之前认为可以减少硬件利用率的模型并行策略（张量和管道并行性在 2-4 的程度）在规模上实际上变得更可取。与纯数据并行性相比，它们减少了暴露的通信。在更新的硬件上，利用率变得更差，而不是更好。模型 FLOPS 利用率从 A100 的 59.67% 降低到 H100 的 40.77%；更快的芯片暴露了更多的通信开销。为什么这很重要：增加更多的 GPU 在每个额外的功率或 GPU 小时上提供了较差的边际性能。扩展到数千个加速器的团队需要仔细重新考虑并行化策略，而不是假设更多的硬件等于更快的训练。