Google TPU v6e vs AMD MI300X vs NVIDIA H100/B200: Die Hardware-Benchmarking-Analyse von Artificial Analysis zeigt, dass NVIDIA einen Vorteil von ~5x Tokens pro Dollar gegenüber TPU v6e (Trillium) und einen Vorteil von ~2x gegenüber MI300X in unserem wichtigen Metrik für die Inferenzkosten erzielt. In unserer Metrik für die Inferenzkosten, die als Kosten pro Million Eingabe- und Ausgabetokens bei Referenzgeschwindigkeit bezeichnet wird, sehen wir, dass die Systeme NVIDIA H100 und B200 insgesamt niedrigere Kosten als TPU v6e und MI300X erreichen. Für Llama 3.3 70B, das mit vLLM bei einer Referenzgeschwindigkeit von 30 Ausgabetokens/s läuft, erreicht NVIDIA H100 Kosten pro Million Eingabe- und Ausgabetokens von 1,06 $, verglichen mit MI300X bei 2,24 $ und TPU v6e bei 5,13 $. Diese Analyse basiert auf den Ergebnissen des Artificial Analysis System Load Tests für die Inferenzdurchsatzrate des Systems über eine Reihe von Parallelitätsstufen sowie auf den Preisdaten für GPU-Instanzen, die wir von einer Reihe von GPU-Cloud-Anbietern sammeln. "Kosten pro Million Eingabe- und Ausgabetokens bei Referenzgeschwindigkeit" verwendet den Durchsatz des Systems, den das System erreichen kann, während es 30 Ausgabetokens pro Sekunde und Abfrage beibehält, und teilt die Mietkosten des Systems durch diesen Durchsatz (auf eine Million Tokens skaliert). Vollständige Ergebnisse über eine Reihe von Parallelitäts- und Geschwindigkeitsstufen sind auf der Seite der Hardware-Benchmarking von Artificial Analysis verfügbar. Wichtiger Kontext: ➤ Wir berichten nur über Ergebnisse für TPU v6e, die Llama 3.3 70B ausführt, da dies das einzige Modell auf unserer Hardware-Seite ist, für das vLLM auf TPU offiziell unterstützt wird. Wir berichten über Ergebnisse für NVIDIA Hopper- und Blackwell-Systeme und jetzt auch für AMD MI300X über alle vier Modelle auf unserer Hardware-Seite: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 und Llama 3.3 70B. ➤ Diese Ergebnisse basieren auf dem, was Unternehmen jetzt in der Cloud mieten können - die nächste Generation von MI355X- und TPU v7-Beschleunigern ist noch nicht weit verbreitet verfügbar. Wir nehmen den niedrigsten Preis aus einer Referenzgruppe von GPU-Cloud-Anbietern. TPU v6e wird nach Bedarf zu 2,70 $ pro Chip und Stunde angeboten, was günstiger ist als unser niedrigster erfasster Preis für NVIDIA B200 (5,50 $ pro Stunde), aber ähnlich wie NVIDIA H100 (2,70 $ pro Stunde) und AMD MI300X (2 $ pro Stunde). ➤ Googles TPU v7 (Ironwood) wird in den kommenden Wochen allgemein verfügbar. Wir erwarten, dass TPU v7 v6e erheblich übertreffen wird, angesichts der Sprünge in der Rechenleistung (918 TFLOPS auf 4.614 TFLOPS), dem Speicher (32 GB auf 192 GB) und der Speicherbandbreite (1,6 TB/s auf 7,4 TB/s). Wir wissen jedoch noch nicht, was Google für diese Instanzen verlangen wird - daher ist der Einfluss auf die implizierten Kosten pro Token noch unklar. ➤ Unsere Metrik für Kosten pro Million Eingabe- und Ausgabetokens kann nicht direkt mit der Preisgestaltung von serverlosen APIs verglichen werden. Die insgesamt implizierten Kosten pro Million Tokens für ein bestimmtes Deployment werden durch die Geschwindigkeit pro Abfrage beeinflusst, die Sie anstreben möchten (getrieben durch Batchgröße/Parallelität) und das Verhältnis von Eingabe- zu Ausgabetokens. ➤ Diese Ergebnisse gelten für Systeme mit 8 Beschleunigern - d.h. 8xH100, 8xB200, 8xTPU v6e, 8xMI300X. Wir haben auch kürzlich aktualisierte Blackwell-Ergebnisse veröffentlicht - weitere Analysen dazu kommen bald.
Detaillierte Ergebnisse, wie die Leistung mit der Parallelität skaliert, basierend auf dem Lasttest des Artificial Analysis Systems.
322,57K