分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

Google TPU v6e vs AMD MI300X vs NVIDIA H100/B200:Artificial Analysisのハードウェアベンチマーキングによると、NVIDIAはTPU v6e(Trillium)に対して1ドルあたり約5倍のトークン数の優位性を達成しており、MI300Xに対しては約2倍の優位性を示しています私たちの推論コスト指標である「参照速度における1百万入出力トークンあたりのコスト」では、NVIDIA H100およびB200システムはTPU v6eやMI300Xよりも低い全体コストを実現しています。vLLMを用いて30個の出力トークン/秒のクエリあたり参照速度で動作するLlama 3.3 70Bの場合、NVIDIA H100は100万トークンあたりの入出力トークンあたりコスト1.06ドルを達成しており、MI300Xは2.24ドル、TPU v6eは5.13ドルです。この分析は、さまざまな並行レベルにわたるシステム推論スループットに関する人工解析システム負荷テストの結果と、複数のGPUクラウドプロバイダーから収集したGPUインスタンスプライシングデータに基づいています。「参照速度下での100万入出力トークンあたりコスト」は、1クエリあたり30個の出力トークンを維持しながらシステムが達成できるシステムスループットを用い、システムのレンタルコストをそのスループット(100万トークンにスケール)で割ります。並行処理および速度レベルの全結果は、人工解析ハードウェアベンチマークページで閲覧可能です。重要な背景: 私たちは、TPU v6eでLlama 3.3 70Bを実行した場合にのみ結果を報告しています。これは、ハードウェアページでvLLMが公式にサポートされている唯一のモデルだからです。NVIDIA HopperおよびBlackwellシステム、そして現在のAMD MI300Xの4モデルすべて(gpt-oss-120b、Llama 4 Maverick、DeepSeek R1、Llama 3.3 70B)の結果を報告しています。これらの結果は、現在クラウド上で企業がレンタルできるものに基づいており、次世代のMI355XおよびTPU v7アクセラレータはまだ広く利用されていません。GPUクラウドプロバイダーの基準セットで最も低い価格を採用しています。TPU v6eはオンデマンドで1チップあたり2.70ドルで、NVIDIA B200の最低価格(5.50ドル)より安いですが、NVIDIA H100(1時間あたり2.70ドル)やAMD MI300X(2時間あたり2ドル)と同程度です。 † GoogleのTPU v7(Ironwood)は今後数週間で一般公開されます。計算(918 TFLOPSから4,614 TFLOPS)、メモリ(32GBから192GB)、メモリ帯域幅(1.6 TB/sから7.4 TB/s)の飛躍を踏まえれば、TPU v7はv6eを大幅に上回ると予想されます。しかし、Googleがこれらのインスタンスに対してどれほど請求するかはまだ分かっておらず、トークンごとの暗黙のコストへの影響はまだ明確ではありません。さらに、私たちの100万件の入出力トークンあたりのコスト指標は、サーバーレスAPIの価格設定と直接比較することはできません。特定のデプロイメントにおける100万トークンあたりの暗黙のコストは、目指したい1クエリあたりの速度(バッチサイズや同時実行によって左右)や入力トークンと出力トークンの比率によって影響を受けます。 † これらの結果はすべて8つのアクセラレータを持つシステムに関するものです — つまりH100が8台、B200が8台、TPU v6eが8台、MI300Xが8台です。また、最近、ブラックウェルの最新結果も発表しました。これらの分析も近日中に予定しています。

人工解析システム負荷テスト(Artificial Analysis System Load Test)でベンチマークされた同時実行によるパフォーマンスの詳細な結果

322.57K

トップ

ランキング

お気に入り