一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Google TPU v6e 與 AMI MI300X 與 NVIDIA H100/B200：Artificial Analysis 的硬體基準測試顯示，NVIDIA 在每美元代幣數量上相較於 TPU v6e (Trillium) 取得約 5 倍的優勢，並且在我們的關鍵推理成本指標上相較於 MI300X 取得約 2 倍的優勢。在我們的推理成本指標中，稱為每百萬輸入和輸出代幣的成本（Cost Per Million Input and Output Tokens at Reference Speed），我們看到 NVIDIA H100 和 B200 系統的整體成本低於 TPU v6e 和 MI300X。對於 Llama 3.3 70B，在每查詢參考速度為 30 輸出代幣/秒的情況下，NVIDIA H100 的每百萬輸入和輸出代幣成本為 1.06 美元，而 MI300X 為 2.24 美元，TPU v6e 為 5.13 美元。這項分析依賴於 Artificial Analysis 系統負載測試的結果，該測試針對不同的併發級別進行系統推理吞吐量測試，以及我們從多家 GPU 雲端供應商收集的 GPU 實例定價數據。“每百萬輸入和輸出代幣的成本（Cost Per Million Input and Output Tokens at Reference Speed）”使用系統在每查詢保持 30 輸出代幣每秒的情況下所能達到的吞吐量，並將其除以租用系統的成本。在 Artificial Analysis 硬體基準測試頁面上可以查看不同併發和速度級別的完整結果。重要背景： ➤ 這些結果基於公司目前在雲端可以租用的設備 - 下一代 MI355X 和 TPU v7 加速器尚未廣泛可用。我們取自一組 GPU 雲端供應商的最低價格。TPU v6e 的按需定價為每顆晶片每小時 2.70 美元，這比我們追蹤的 NVIDIA B200 的最低價格（每小時 5.50 美元）便宜，但與 NVIDIA H100（每小時 2.70 美元）和 AMD MI300X（每小時 2 美元）相似。 ➤ Google 的 TPU v7 (Ironwood) 將在接下來幾週內普遍可用。我們預期 TPU v7 在計算能力（918 TFLOPS 到 4,614 TFLOPS）、記憶體（32GB 到 192GB）和記憶體帶寬（1.6 TB/s 到 7.4 TB/s）上將大幅超越 v6e。然而，我們尚不清楚 Google 將對這些實例收取多少費用 - 因此對每代幣隱含成本的影響尚不明確。 ➤ 我們的每百萬輸入和輸出代幣成本指標無法直接與無伺服器 API 定價進行比較。給定部署的每百萬代幣的整體隱含成本受您希望達到的每查詢速度（由批量大小/併發驅動）和輸入與輸出代幣的比例影響。 ➤ 我們僅報告運行 Llama 3.3 70B 的 TPU v6e 的結果，因為這是我們硬體頁面上顯示的唯一模型，且該模型也正式支持 vLLM 在 TPU 上。我們報告 NVIDIA Hopper 和 Blackwell 系統的結果，現在也包括 AMD MI300X，涵蓋我們硬體頁面上的所有四個模型：gpt-oss-120b、Llama 4 Maverick、DeepSeek R1 和 Llama 3.3 70B。 ➤ 這些結果均針對配備 8 個加速器的系統 - 即 8xH100、8xB200、8xTPU v6e、8xMI300X。我們最近還發布了更新的 Blackwell 結果 - 更多分析將很快推出。

有關性能如何隨著併發性擴展的詳細結果，這是由人工分析系統負載測試進行基準測試的。

45