NVIDIA только что выпустила статью, которая может решить главную проблему в LLM. Скорость против качества. Автогрессивные модели (такие как GPT) умные, но медленные - они генерируют один токен за раз, оставляя большую часть вашего GPU без дела. Модели диффузии быстрые, но часто выдают неясные результаты. TiDAR объединяет оба подхода в одном прямом проходе. Вот в чем гениальность: Современные GPU могут обрабатывать гораздо больше токенов, чем мы на самом деле используем. TiDAR использует эти "свободные слоты" следующим образом: 1. Генерирует несколько токенов одновременно с помощью диффузии (фаза "мышления") 2. Проверяет их с помощью автогрессии (фаза "разговора") Обе операции происходят одновременно с использованием умных масок внимания - двунаправленных для генерации, каузальных для проверки. Результаты: ↳ 4.71x быстрее при 1.5B параметрах без потери качества ↳ Почти 6x быстрее при 8B параметрах ↳ Первая архитектура, которая превосходит спекулятивное декодирование (EAGLE-3) ↳ Работает со стандартным KV кэшированием, в отличие от чисто диффузионных моделей Трюк с обучением тоже умен - вместо случайного маскирования токенов они маскируют все. Это дает более сильные сигналы для обучения и позволяет эффективно генерировать токены за один шаг. Если вы создаете AI-агентов в реальном времени, где задержка убивает опыт, эта архитектура стоит вашего внимания. ...