Google TPU v6e vs AMI MI300X vs NVIDIA H100/B200: Artificial Analysisのハードウェアベンチマーキングによると、NVIDIAはTPU v6e(Trillium)に対して1ドルあたり約5倍のトークン数の優位性を得ており、MI300Xに対して約2倍の優位性を達成しています 私たちの推論コスト指標である「参照速度における1百万入出力トークンあたりのコスト」では、NVIDIA H100およびB200システムはTPU v6eやMI300Xよりも低い全体コストを実現しています。Llama 3.3 70Bの場合、1クエリあたりの基準速度が30トークン/秒の場合、NVIDIA H100は100万トークンあたりのコスト1.06ドルを達成しており、MI300Xは2.24ドル、TPU v6eは5.13ドルです。 この分析は、さまざまな並行レベルにわたるシステム推論スループットに関する人工解析システム負荷テストの結果と、複数のGPUクラウドプロバイダーから収集したGPUインスタンスプライシングデータに基づいています。「参照速度での100万入出力トークンあたりのコスト」は、システム全体で、1クエリあたり30個の出力トークンを維持しつつ達成可能なシステムを使い、それをシステムのレンタルコストで割ります。 並行処理および速度レベルの全結果は、人工解析ハードウェアベンチマークページで閲覧可能です。 重要な背景: これらの結果は、現在クラウド上で企業がレンタルできるものに基づいており、次世代のMI355XおよびTPU v7アクセラレータはまだ広く利用されていません。GPUクラウドプロバイダーの基準セットで最も低い価格を採用しています。TPU v6eはオンデマンドで1チップあたり2.70ドルで、NVIDIA B200の最低価格(5.50ドル)より安いですが、NVIDIA H100(1時間あたり2.70ドル)やAMD MI300X(2時間あたり2ドル)と同程度です。 † GoogleのTPU v7(Ironwood)は今後数週間で一般公開されます。計算(918 TFLOPSから4,614 TFLOPS)、メモリ(32GBから192GB)、メモリ帯域幅(1.6 TB/sから7.4 TB/s)の飛躍を踏まえれば、TPU v7はv6eを大幅に上回ると予想されます。しかし、Googleがこれらのインスタンスに対してどれほど請求するかはまだ分かっておらず、トークンごとの暗黙のコストへの影響はまだ明確ではありません。 さらに、私たちの100万件の入出力トークンあたりのコスト指標は、サーバーレスAPIの価格設定と直接比較することはできません。特定のデプロイメントにおける100万トークンあたりの暗黙のコストは、目指したい1クエリあたりの速度(バッチサイズや同時実行によって左右)や入力トークンと出力トークンの比率によって影響を受けます。 † 私たちが報告しているのは、Llama 3.3 70Bを搭載したTPU v6eのみが、ハードウェアページで表示されている唯一のモデルであり、TPU上のvLLMにも公式にサポートされているからです。NVIDIA HopperおよびBlackwellシステム、そして現在のAMD MI300Xの4モデルすべて(gpt-oss-120b、Llama 4 Maverick、DeepSeek R1、Llama 3.3 70B)の結果を報告しています。 † これらの結果はすべて8つのアクセラレータを持つシステムに関するものです — つまりH100が8台、B200が8台、TPU v6eが8台、MI300Xが8台です。 また、最近、ブラックウェルの最新結果も発表しました。これらの分析も近日中に予定しています。
人工解析システム負荷テスト(Artificial Analysis System Load Test)でベンチマークされた同時実行によるパフォーマンスの詳細な結果
40