Google TPU v6e vs AMI MI300X vs NVIDIA H100/B200: Artificial Analysis' Hardware Benchmarking viser at NVIDIA oppnår en ~5x fordel per dollar over TPU v6e (Trillium), og en ~2x fordel over MI300X, i vår viktigste slutningskostnadsmetrikk I vår metrikk for inferenskostnad kalt Cost Per Million Input and Output Tokens ved referansehastighet, ser vi at NVIDIA H100- og B200-systemer oppnår lavere totalkostnad enn TPU v6e og MI300X. For Llama 3.3 70B med en referansehastighet per spørring på 30 utdatatokens/s, oppnår NVIDIA H100 en kostnad per million inn- og utgangstokens på 1,06 dollar, sammenlignet med MI300X på 2,24 dollar og TPU v6e på 5,13 dollar. Denne analysen baserer seg på resultater fra Artificial Analysis System Load Test for systeminferensgjennomstrømning over ulike samtidighetsnivåer, og GPU-instansprisdata vi samler inn fra ulike GPU-skyleverandører. "Cost Per Million Input and Output Tokens at Reference Speed" bruker systemet gjennom hele systemet som systemet kan oppnå samtidig som de opprettholder 30 utdatatokens per sekund per forespørsel, og deler dette på kostnaden ved å leie systemet. Fullstendige resultater over et spekter av samtidighets- og hastighetsnivåer er tilgjengelige på siden for Artificial Analysis Hardware Benchmarking. Viktig kontekst: ➤ Disse resultatene er basert på hva selskaper kan leie nå i skyen – neste generasjons MI355X- og TPU v7-akseleratorer er ennå ikke allment tilgjengelige. Vi tar den laveste prisen på tvers av et referansesett av GPU-skyleverandører. TPU v6e er priset on-demand til $2,70 per brikke per time, noe som er billigere enn vår laveste målte pris for NVIDIA B200 ($5,50 per time), men likt NVIDIA H100 ($2,70 per time) og AMD MI300X ($2 per time). ➤ Googles TPU v7 (Ironwood) blir allment tilgjengelig i løpet av de kommende ukene. Vi forventer at TPU v7 vil prestere betydelig bedre enn v6e, gitt store sprang i beregning (918 TFLOPS til 4 614 TFLOPS), minne (32GB til 192GB) og minnebåndbredde (1,6 TB/s til 7,4 TB/s). Vi vet imidlertid ennå ikke hva Google vil kreve for disse tilfellene – så effekten på implisitte kostnader per token er ennå uklar. ➤ Vår Kostnad per million Input and Output Tokens-metrikk kan ikke sammenlignes direkte med serverless API-priser. Den totale implisitte kostnaden per million tokens for en gitt distribusjon påvirkes av hastigheten per spørring du ønsker å sikte mot (drevet av batchstørrelse/samtidighet) og forholdet mellom input- og outputtokens. ➤ Vi rapporterer kun resultater for TPU v6e som kjører Llama 3.3 70B fordi dette er den eneste modellen som vises på maskinvaresiden vår som også offisielt støttes for vLLM på TPU. Vi rapporterer resultater for NVIDIA Hopper- og Blackwell-systemer, og nå for AMD MI300X, på tvers av alle fire modellene på vår maskinvareside: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 og Llama 3.3 70B. ➤ Disse resultatene gjelder alle systemer med 8 akseleratorer – altså. 8xH100, 8xB200, 8xTPU v6e, 8xMI300X. Vi har også nylig publisert oppdaterte Blackwell-resultater – mer analyse av disse kommer snart.
Detaljerte resultater av hvordan ytelse skaleres ved samtidighet, slik det er benchmarket av Artificial Analysis System Load Test
47