DApp Store | Web3 Hub for hendelser og spill

Populære emner

Google TPU v6e vs AMD MI300X vs NVIDIA H100/B200: Artificial Analysis' Hardware Benchmarking viser at NVIDIA oppnår en ~5x fordel i tokens per dollar over TPU v6e (Trillium), og en ~2x fordel over MI300X, i vår nøkkel-inferenskostnadsmetrikk I vår metrikk for inferenskostnad kalt Cost Per Million Input and Output Tokens ved referansehastighet, ser vi at NVIDIA H100- og B200-systemer oppnår lavere totalkostnad enn TPU v6e og MI300X. For Llama 3.3 70B som kjører med vLLM med en Per-Query Reference Speed på 30 output tokens/s, oppnår NVIDIA H100 en kostnad per million input- og outputtokens på $1,06, sammenlignet med MI300X på $2,24 og TPU v6e på $5,13. Denne analysen baserer seg på resultater fra Artificial Analysis System Load Test for systeminferensgjennomstrømning over ulike samtidighetsnivåer, og GPU-instansprisdata vi samler inn fra ulike GPU-skyleverandører. "Cost Per Million Input and Output Tokens at Reference Speed" bruker systemgjennomstrømningen systemet kan oppnå samtidig som det opprettholder 30 utdatatokens per sekund per spørring, og deler systemets leiekostnad på denne gjennomstrømningen (skalert til en million tokens). Fullstendige resultater over et spekter av samtidighets- og hastighetsnivåer er tilgjengelige på siden for Artificial Analysis Hardware Benchmarking. Viktig kontekst: ➤ Vi rapporterer kun resultater for TPU v6e som kjører Llama 3.3 70B fordi dette er den eneste modellen på vår maskinvareside hvor vLLM på TPU offisielt støttes. Vi rapporterer resultater for NVIDIA Hopper- og Blackwell-systemer, og nå for AMD MI300X, på tvers av alle fire modellene på vår maskinvareside: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 og Llama 3.3 70B. ➤ Disse resultatene er basert på hva selskaper kan leie nå i skyen – neste generasjons MI355X- og TPU v7-akseleratorer er ennå ikke allment tilgjengelige. Vi tar den laveste prisen på tvers av et referansesett av GPU-skyleverandører. TPU v6e er priset on-demand til $2,70 per brikke per time, noe som er billigere enn vår laveste målte pris for NVIDIA B200 ($5,50 per time), men likt NVIDIA H100 ($2,70 per time) og AMD MI300X ($2 per time). ➤ Googles TPU v7 (Ironwood) blir allment tilgjengelig i løpet av de kommende ukene. Vi forventer at TPU v7 vil prestere betydelig bedre enn v6e, gitt store sprang i beregning (918 TFLOPS til 4 614 TFLOPS), minne (32GB til 192GB) og minnebåndbredde (1,6 TB/s til 7,4 TB/s). Vi vet imidlertid ennå ikke hva Google vil kreve for disse tilfellene – så effekten på implisitte kostnader per token er ennå uklar. ➤ Vår Kostnad per million Input and Output Tokens-metrikk kan ikke sammenlignes direkte med serverless API-priser. Den totale implisitte kostnaden per million tokens for en gitt distribusjon påvirkes av hastigheten per spørring du ønsker å sikte mot (drevet av batchstørrelse/samtidighet) og forholdet mellom input- og outputtokens. ➤ Disse resultatene gjelder alle systemer med 8 akseleratorer – altså. 8xH100, 8xB200, 8xTPU v6e, 8xMI300X. Vi har også nylig publisert oppdaterte Blackwell-resultater – mer analyse av disse kommer snart.

Detaljerte resultater av hvordan ytelse skaleres ved samtidighet, slik det er benchmarket av Artificial Analysis System Load Test

322,57K

Topp

Rangering

Favoritter