一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Google TPU v6e 与 AMD MI300X 与 NVIDIA H100/B200：Artificial Analysis 的硬件基准测试显示，NVIDIA 在每美元代币数方面相较于 TPU v6e（Trillium）获得了约 5 倍的优势，相较于 MI300X 获得了约 2 倍的优势，在我们的关键推理成本指标中。在我们称为每百万输入和输出代币成本的推理成本指标中，我们看到 NVIDIA H100 和 B200 系统的整体成本低于 TPU v6e 和 MI300X。对于以 vLLM 运行的 Llama 3.3 70B，在每查询参考速度为 30 输出代币/秒的情况下，NVIDIA H100 的每百万输入和输出代币成本为 1.06 美元，而 MI300X 为 2.24 美元，TPU v6e 为 5.13 美元。此分析依赖于 Artificial Analysis 系统负载测试的结果，以评估系统在不同并发级别下的推理吞吐量，以及我们从多家 GPU 云服务提供商收集的 GPU 实例定价数据。“每百万输入和输出代币成本在参考速度下”使用系统在每查询保持 30 输出代币每秒时可以达到的系统吞吐量，并将系统的租赁成本除以该吞吐量（按百万代币缩放）。在 Artificial Analysis 硬件基准测试页面上可以查看不同并发和速度级别的完整结果。重要背景： ➤ 我们仅报告运行 Llama 3.3 70B 的 TPU v6e 的结果，因为这是我们硬件页面上唯一官方支持 vLLM 的模型。我们报告 NVIDIA Hopper 和 Blackwell 系统的结果，现在也包括 AMD MI300X，涵盖我们硬件页面上的所有四个模型：gpt-oss-120b、Llama 4 Maverick、DeepSeek R1 和 Llama 3.3 70B。 ➤ 这些结果基于公司现在可以在云中租用的内容 - 下一代 MI355X 和 TPU v7 加速器尚未广泛可用。我们取自一组 GPU 云服务提供商的最低价格。TPU v6e 的按需定价为每个芯片每小时 2.70 美元，这比我们跟踪的 NVIDIA B200（每小时 5.50 美元）的最低价格便宜，但与 NVIDIA H100（每小时 2.70 美元）和 AMD MI300X（每小时 2 美元）相似。 ➤ Google 的 TPU v7（Ironwood）将在接下来的几周内普遍可用。我们预计 TPU v7 将在计算能力（918 TFLOPS 到 4,614 TFLOPS）、内存（32GB 到 192GB）和内存带宽（1.6 TB/s 到 7.4 TB/s）方面大幅超越 v6e。然而，我们尚不清楚 Google 将对这些实例收取多少费用 - 因此对每个代币成本的影响尚不明确。 ➤ 我们的每百万输入和输出代币成本指标无法与无服务器 API 定价直接比较。给定部署的每百万代币的整体隐含成本受您希望达到的每查询速度（由批量大小/并发性驱动）和输入与输出代币的比例影响。 ➤ 这些结果均为配备 8 个加速器的系统 - 即 8xH100、8xB200、8xTPU v6e、8xMI300X。我们最近还发布了更新的 Blackwell 结果 - 更多分析即将到来。

人工分析系统负载测试基准下，性能如何随着并发性扩展的详细结果

443.47K