热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
Google TPU v6e 与 AMD MI300X 与 NVIDIA H100/B200:Artificial Analysis 的硬件基准测试显示,NVIDIA 在每美元代币数方面相较于 TPU v6e(Trillium)获得了约 5 倍的优势,相较于 MI300X 获得了约 2 倍的优势,在我们的关键推理成本指标中。
在我们称为每百万输入和输出代币成本的推理成本指标中,我们看到 NVIDIA H100 和 B200 系统的整体成本低于 TPU v6e 和 MI300X。对于以 vLLM 运行的 Llama 3.3 70B,在每查询参考速度为 30 输出代币/秒的情况下,NVIDIA H100 的每百万输入和输出代币成本为 1.06 美元,而 MI300X 为 2.24 美元,TPU v6e 为 5.13 美元。
此分析依赖于 Artificial Analysis 系统负载测试的结果,以评估系统在不同并发级别下的推理吞吐量,以及我们从多家 GPU 云服务提供商收集的 GPU 实例定价数据。“每百万输入和输出代币成本在参考速度下”使用系统在每查询保持 30 输出代币每秒时可以达到的系统吞吐量,并将系统的租赁成本除以该吞吐量(按百万代币缩放)。
在 Artificial Analysis 硬件基准测试页面上可以查看不同并发和速度级别的完整结果。
重要背景:
➤ 我们仅报告运行 Llama 3.3 70B 的 TPU v6e 的结果,因为这是我们硬件页面上唯一官方支持 vLLM 的模型。我们报告 NVIDIA Hopper 和 Blackwell 系统的结果,现在也包括 AMD MI300X,涵盖我们硬件页面上的所有四个模型:gpt-oss-120b、Llama 4 Maverick、DeepSeek R1 和 Llama 3.3 70B。
➤ 这些结果基于公司现在可以在云中租用的内容 - 下一代 MI355X 和 TPU v7 加速器尚未广泛可用。我们取自一组 GPU 云服务提供商的最低价格。TPU v6e 的按需定价为每个芯片每小时 2.70 美元,这比我们跟踪的 NVIDIA B200(每小时 5.50 美元)的最低价格便宜,但与 NVIDIA H100(每小时 2.70 美元)和 AMD MI300X(每小时 2 美元)相似。
➤ Google 的 TPU v7(Ironwood)将在接下来的几周内普遍可用。我们预计 TPU v7 将在计算能力(918 TFLOPS 到 4,614 TFLOPS)、内存(32GB 到 192GB)和内存带宽(1.6 TB/s 到 7.4 TB/s)方面大幅超越 v6e。然而,我们尚不清楚 Google 将对这些实例收取多少费用 - 因此对每个代币成本的影响尚不明确。
➤ 我们的每百万输入和输出代币成本指标无法与无服务器 API 定价直接比较。给定部署的每百万代币的整体隐含成本受您希望达到的每查询速度(由批量大小/并发性驱动)和输入与输出代币的比例影响。
➤ 这些结果均为配备 8 个加速器的系统 - 即 8xH100、8xB200、8xTPU v6e、8xMI300X。
我们最近还发布了更新的 Blackwell 结果 - 更多分析即将到来。

人工分析系统负载测试基准下,性能如何随着并发性扩展的详细结果

443.47K
热门
排行
收藏

