Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 СРОЧНО: Исследователь Google и лауреат премии Тьюринга только что опубликовали статью, в которой раскрывается настоящая проблема в ИИ.
Дело не в обучении. Дело в выводах. И оборудование, которое мы используем, никогда не было предназначено для этого.
Статья написана Сяоюем Ма и Дэвидом Паттерсоном. Принята IEEE Computer, 2026.
Никакого хайпа. Никакого запуска продукта. Просто холодный анализ того, почему обслуживание LLM в корне сломано на уровне оборудования.
Основной аргумент жесток:
→ Производительность GPU увеличилась в 80 раз с 2012 по 2022 год
→ Пропускная способность памяти увеличилась всего в 17 раз за тот же период
→ Стоимость HBM за ГБ растет, а не падает
→ Фаза декодирования ограничена памятью, а не вычислениями
→ Мы строим выводы на чипах, предназначенных для обучения
Вот самая дикая часть:
OpenAI потеряла примерно 5 миллиардов долларов при доходе в 3,7 миллиарда долларов. Узкое место не в качестве модели. Это стоимость обслуживания каждого отдельного токена для каждого отдельного пользователя. Выводы истощают эти компании.
И пять тенденций одновременно усугубляют ситуацию:
→ Модели MoE, такие как DeepSeek-V3 с 256 экспертами, взрывающие память
→ Модели рассуждений, генерирующие огромные цепочки мыслей перед ответом
→ Мультимодальные входы (изображение, аудио, видео), затмевающие текст
→ Долгие контекстные окна, нагружающие KV-кэши
→ Пайплайны RAG, вводящие больше контекста на запрос
Их четыре предложенных изменения в оборудовании:
→ Высокоскоростная флеш-память: 512 ГБ стеков с пропускной способностью на уровне HBM, в 10 раз больше памяти на узел
→ Обработка рядом с памятью: логические элементы размещаются рядом с памятью, а не на том же чипе
→ 3D-стекание памяти и логики: вертикальные соединения, обеспечивающие на 2-3 раза меньшую мощность, чем HBM...


Топ
Рейтинг
Избранное
