🚨 СРОЧНО: Исследователь Google и лауреат премии Тьюринга только что опубликовали статью, в которой раскрывается настоящая проблема в ИИ. Дело не в обучении. Дело в выводах. И оборудование, которое мы используем, никогда не было предназначено для этого. Статья написана Сяоюем Ма и Дэвидом Паттерсоном. Принята IEEE Computer, 2026. Никакого хайпа. Никакого запуска продукта. Просто холодный анализ того, почему обслуживание LLM в корне сломано на уровне оборудования. Основной аргумент жесток: → Производительность GPU увеличилась в 80 раз с 2012 по 2022 год → Пропускная способность памяти увеличилась всего в 17 раз за тот же период → Стоимость HBM за ГБ растет, а не падает → Фаза декодирования ограничена памятью, а не вычислениями → Мы строим выводы на чипах, предназначенных для обучения Вот самая дикая часть: OpenAI потеряла примерно 5 миллиардов долларов при доходе в 3,7 миллиарда долларов. Узкое место не в качестве модели. Это стоимость обслуживания каждого отдельного токена для каждого отдельного пользователя. Выводы истощают эти компании. И пять тенденций одновременно усугубляют ситуацию: → Модели MoE, такие как DeepSeek-V3 с 256 экспертами, взрывающие память → Модели рассуждений, генерирующие огромные цепочки мыслей перед ответом → Мультимодальные входы (изображение, аудио, видео), затмевающие текст → Долгие контекстные окна, нагружающие KV-кэши → Пайплайны RAG, вводящие больше контекста на запрос Их четыре предложенных изменения в оборудовании: → Высокоскоростная флеш-память: 512 ГБ стеков с пропускной способностью на уровне HBM, в 10 раз больше памяти на узел → Обработка рядом с памятью: логические элементы размещаются рядом с памятью, а не на том же чипе → 3D-стекание памяти и логики: вертикальные соединения, обеспечивающие на 2-3 раза меньшую мощность, чем HBM...