熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
Google TPU v6e 與 AMI MI300X 與 NVIDIA H100/B200:Artificial Analysis 的硬體基準測試顯示,NVIDIA 在每美元代幣數量上相較於 TPU v6e (Trillium) 取得約 5 倍的優勢,並且在我們的關鍵推理成本指標上相較於 MI300X 取得約 2 倍的優勢。
在我們的推理成本指標中,稱為每百萬輸入和輸出代幣的成本(Cost Per Million Input and Output Tokens at Reference Speed),我們看到 NVIDIA H100 和 B200 系統的整體成本低於 TPU v6e 和 MI300X。對於 Llama 3.3 70B,在每查詢參考速度為 30 輸出代幣/秒的情況下,NVIDIA H100 的每百萬輸入和輸出代幣成本為 1.06 美元,而 MI300X 為 2.24 美元,TPU v6e 為 5.13 美元。
這項分析依賴於 Artificial Analysis 系統負載測試的結果,該測試針對不同的併發級別進行系統推理吞吐量測試,以及我們從多家 GPU 雲端供應商收集的 GPU 實例定價數據。“每百萬輸入和輸出代幣的成本(Cost Per Million Input and Output Tokens at Reference Speed)”使用系統在每查詢保持 30 輸出代幣每秒的情況下所能達到的吞吐量,並將其除以租用系統的成本。
在 Artificial Analysis 硬體基準測試頁面上可以查看不同併發和速度級別的完整結果。
重要背景:
➤ 這些結果基於公司目前在雲端可以租用的設備 - 下一代 MI355X 和 TPU v7 加速器尚未廣泛可用。我們取自一組 GPU 雲端供應商的最低價格。TPU v6e 的按需定價為每顆晶片每小時 2.70 美元,這比我們追蹤的 NVIDIA B200 的最低價格(每小時 5.50 美元)便宜,但與 NVIDIA H100(每小時 2.70 美元)和 AMD MI300X(每小時 2 美元)相似。
➤ Google 的 TPU v7 (Ironwood) 將在接下來幾週內普遍可用。我們預期 TPU v7 在計算能力(918 TFLOPS 到 4,614 TFLOPS)、記憶體(32GB 到 192GB)和記憶體帶寬(1.6 TB/s 到 7.4 TB/s)上將大幅超越 v6e。然而,我們尚不清楚 Google 將對這些實例收取多少費用 - 因此對每代幣隱含成本的影響尚不明確。
➤ 我們的每百萬輸入和輸出代幣成本指標無法直接與無伺服器 API 定價進行比較。給定部署的每百萬代幣的整體隱含成本受您希望達到的每查詢速度(由批量大小/併發驅動)和輸入與輸出代幣的比例影響。
➤ 我們僅報告運行 Llama 3.3 70B 的 TPU v6e 的結果,因為這是我們硬體頁面上顯示的唯一模型,且該模型也正式支持 vLLM 在 TPU 上。我們報告 NVIDIA Hopper 和 Blackwell 系統的結果,現在也包括 AMD MI300X,涵蓋我們硬體頁面上的所有四個模型:gpt-oss-120b、Llama 4 Maverick、DeepSeek R1 和 Llama 3.3 70B。
➤ 這些結果均針對配備 8 個加速器的系統 - 即 8xH100、8xB200、8xTPU v6e、8xMI300X。
我們最近還發布了更新的 Blackwell 結果 - 更多分析將很快推出。

有關性能如何隨著併發性擴展的詳細結果,這是由人工分析系統負載測試進行基準測試的。

45
熱門
排行
收藏

