Google TPU v6e проти AMD MI300X проти NVIDIA H100/B200: Апаратний бенчмаркинг Artificial Analysis показує, що NVIDIA досягла ~5-кратної переваги у вигляді токенів за долар над TPU v6e (Trillium) і ~2-кратної переваги над MI300X, згідно з нашим ключовим показником вартості У нашій метриці витрат на виведення під назвою Cost Per Million Input and Output Tokens при еталонній швидкості ми бачимо, що системи NVIDIA H100 і B200 досягають нижчої загальної вартості, ніж TPU v6e та MI300X. Для Llama 3.3 70B, що працює з vLLM на еталонній швидкості на запит 30 вихідних токенів/с, NVIDIA H100 досягає вартості за мільйон вхідних і вихідних токенів $1.06, порівняно з MI300X — $2.24 та TPU v6e — $5.13. Цей аналіз базується на результатах Artificial Analysis System Load Test для визначення пропускної здатності системи на різних рівнях паралелізму, а також на даних про ціноутворення GPU, які ми збираємо від різних провайдерів хмарних процесорів GPU. «Вартість за мільйон вхідних і вихідних токенів на еталонній швидкості» використовує пропускну здатність системи, яку система може досягти, підтримуючи 30 виводних токенів на секунду на запит, і ділить орендну вартість системи на цю пропускну здатність (масштабована до мільйона токенів). Повні результати за різними рівнями паралелізму та швидкості доступні на сторінці Бенчмаркінг апаратного апаратного забезпечення штучного аналізу. Важливий контекст: ➤ Ми повідомляємо результати лише для TPU v6e на Llama 3.3 70B, оскільки це єдина модель на нашій апаратній сторінці, для якої vLLM на TPU офіційно підтримується. Ми повідомляємо результати для систем NVIDIA Hopper і Blackwell, а тепер і для AMD MI300X, для всіх чотирьох моделей на нашій апаратній сторінці: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 та Llama 3.3 70B. ➤ Ці результати базуються на тому, що компанії можуть орендувати зараз у хмарі — прискорювачі MI355X і TPU v7 наступного покоління ще не широко доступні. Ми беремо найнижчу ціну серед еталонного набору провайдерів хмарних процесорів GPU. TPU v6e коштує за запитом $2.70 за чіп за годину, що дешевше за нашу найнижчу відстежену ціну для NVIDIA B200 ($5.50 за годину), але подібно до NVIDIA H100 ($2.70 за годину) та AMD MI300X ($2 за годину). ➤ TPU v7 від Google (Ironwood) стане доступним у найближчі тижні. Ми очікуємо, що продуктивність TPU v7 значно перевершить v6e, враховуючи стрибки в обчислювальних обсягах (918 TFLOPS до 4 614 TFLOPS), пам'яті (32 ГБ до 192 ГБ) та пропускній здатності пам'яті (1,6 ТБ/с до 7,4 ТБ/с). Однак ми поки не знаємо, скільки Google буде стягувати за такі випадки — тому вплив на імпліцитні витрати на один токен поки що не зрозумілий. ➤ Нашу метрику вартості за мільйон вхідних і вихідних токенів не можна безпосередньо порівнювати з ціноутворенням API без сервера. Загальна імпліцитна вартість за мільйон токенів для певного розгортання залежить від швидкості запиту, яку ви хочете досягти (залежно від розміру пакету/конкурентності) та співвідношення вхідних і вихідних токенів. ➤ Ці результати стосуються систем із 8 прискорювачами — тобто 8xH100, 8xB200, 8xTPU v6e, 8xMI300X. Ми також нещодавно опублікували оновлені результати Blackwell — незабаром буде ще більше аналізів.
Детальні результати того, як продуктивність масштабується за паралельністю, як показано за допомогою тесту навантаження системи штучного аналізу
443,47K