Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Google TPU v6e проти AMI MI300X проти NVIDIA H100/B200: Апаратний бенчмаркинг Artificial Analysis показує, що NVIDIA досягла ~5-кратної переваги у вигляді токенів на долар над TPU v6e (Trillium) і ~2-кратної переваги над MI300X, згідно з нашим ключовим показником вартості
У нашій метриці витрат на виведення під назвою Cost Per Million Input and Output Tokens при еталонній швидкості ми бачимо, що системи NVIDIA H100 і B200 досягають нижчої загальної вартості, ніж TPU v6e та MI300X. Для Llama 3.3 70B з еталонною швидкістю за запит 30 вихідних токенів/с, NVIDIA H100 досягає вартості за мільйон вхідних і вихідних токенів $1.06, порівняно з MI300X — $2.24 та TPU v6e — $5.13.
Цей аналіз базується на результатах Artificial Analysis System Load Test для визначення пропускної здатності системи на різних рівнях паралелізму, а також на даних про ціноутворення GPU, які ми збираємо від різних провайдерів хмарних процесорів GPU. «Вартість за мільйон токенів введення та виводу при еталонній швидкості» використовує систему протягом усієї системи, яку системи можуть досягти, підтримуючи при підтримці 30 вихідних токенів на секунду на запит, і ділить її на вартість оренди системи.
Повні результати за різними рівнями паралелізму та швидкості доступні на сторінці Бенчмаркінг апаратного апаратного забезпечення штучного аналізу.
Важливий контекст:
➤ Ці результати базуються на тому, що компанії можуть орендувати зараз у хмарі — прискорювачі MI355X і TPU v7 наступного покоління ще не широко доступні. Ми беремо найнижчу ціну серед еталонного набору провайдерів хмарних процесорів GPU. TPU v6e коштує за запитом $2.70 за чіп за годину, що дешевше за нашу найнижчу відстежену ціну для NVIDIA B200 ($5.50 за годину), але подібно до NVIDIA H100 ($2.70 за годину) та AMD MI300X ($2 за годину).
➤ TPU v7 від Google (Ironwood) стане доступним у найближчі тижні. Ми очікуємо, що продуктивність TPU v7 значно перевершить v6e, враховуючи стрибки в обчислювальних обсягах (918 TFLOPS до 4 614 TFLOPS), пам'яті (32 ГБ до 192 ГБ) та пропускній здатності пам'яті (1,6 ТБ/с до 7,4 ТБ/с). Однак ми поки не знаємо, скільки Google буде стягувати за такі випадки — тому вплив на імпліцитні витрати на один токен поки що не зрозумілий.
➤ Нашу метрику вартості за мільйон вхідних і вихідних токенів не можна безпосередньо порівнювати з ціноутворенням API без сервера. Загальна імпліцитна вартість за мільйон токенів для певного розгортання залежить від швидкості запиту, яку ви хочете досягти (залежно від розміру пакету/конкурентності) та співвідношення вхідних і вихідних токенів.
➤ Ми повідомляємо результати лише для TPU v6e з Llama 3.3 70B, оскільки це єдина модель, показана на нашій апаратній сторінці, яка також офіційно підтримується для vLLM на TPU. Ми повідомляємо результати для систем NVIDIA Hopper і Blackwell, а тепер і для AMD MI300X, для всіх чотирьох моделей на нашій апаратній сторінці: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 та Llama 3.3 70B.
➤ Ці результати стосуються систем із 8 прискорювачами — тобто 8xH100, 8xB200, 8xTPU v6e, 8xMI300X.
Ми також нещодавно опублікували оновлені результати Blackwell — незабаром буде ще більше аналізів.

Детальні результати того, як продуктивність масштабується за паралельністю, як показано за допомогою тесту навантаження системи штучного аналізу

40
Найкращі
Рейтинг
Вибране

