Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NVIDIA только что выпустила статью, которая может решить главную проблему в LLM.
Скорость против качества.
Автогрессивные модели (такие как GPT) умные, но медленные - они генерируют один токен за раз, оставляя большую часть вашего GPU без дела.
Модели диффузии быстрые, но часто выдают неясные результаты.
TiDAR объединяет оба подхода в одном прямом проходе.
Вот в чем гениальность:
Современные GPU могут обрабатывать гораздо больше токенов, чем мы на самом деле используем. TiDAR использует эти "свободные слоты" следующим образом:
1. Генерирует несколько токенов одновременно с помощью диффузии (фаза "мышления")
2. Проверяет их с помощью автогрессии (фаза "разговора")
Обе операции происходят одновременно с использованием умных масок внимания - двунаправленных для генерации, каузальных для проверки.
Результаты:
↳ 4.71x быстрее при 1.5B параметрах без потери качества
↳ Почти 6x быстрее при 8B параметрах
↳ Первая архитектура, которая превосходит спекулятивное декодирование (EAGLE-3)
↳ Работает со стандартным KV кэшированием, в отличие от чисто диффузионных моделей
Трюк с обучением тоже умен - вместо случайного маскирования токенов они маскируют все. Это дает более сильные сигналы для обучения и позволяет эффективно генерировать токены за один шаг.
Если вы создаете AI-агентов в реальном времени, где задержка убивает опыт, эта архитектура стоит вашего внимания.
...

Топ
Рейтинг
Избранное

