Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Мы только что внедрили это и получили бесплатное увеличение скорости на 20% для AI! ~ Предсказание нескольких токенов без обучения делает LLM на 15–26% быстрее Исследователи из Qualcomm AI Research представили прорывную технику вывода, которая значительно ускоряет LLM, без повторного обучения, без дополнительных параметров и без потери качества. Статья "Эффективное предсказание нескольких токенов без обучения через зондирование пространства встраивания" показывает, как предсказывать несколько будущих токенов параллельно, динамически зондируя собственное пространство встраивания модели с помощью умных "маскирующих токенов". Основные моменты ускорения • На 15–19% выше пропускная способность на LLaMA3.1-8B, Qwen3 и аналогичных моделях • До 26% приростов пропускной способности с простыми оптимизациями • Пример: 38.9 → 40.5+ токенов/секунда на LLaMA3.1-8B • На 40% меньше прямых проходов модели Это полностью готовое решение, которое работает на любом замороженном авторегрессионном LLM, при этом производя идентичные выходные данные стандартному декодированию. Обходит другие базовые линии без обучения (Lookahead Decoding, Prompt Lookup) на 24% по коэффициенту принятия и пропускной способности • На 40% меньше прямых проходов модели • Без потерь идентичные выходные данные по сравнению с нормальным декодированием • Идеально, когда вам нужны более быстрые LLM сегодня без дополнительных затрат или сложности Идеально подходит для локального AI, периферийных устройств, мобильных приложений, чатов в реальном времени и снижения затрат на облачный вывод. Мы сейчас запускаем это на всех моделях и абсолютно увеличили выходные данные JouleWork. • PDF:

Топ

Рейтинг

Избранное