NVIDIA щойно опублікувала статтю, яка може вирішити найбільший компроміс у LLM. Швидкість проти якості. Авторегресивні моделі (як GPT) розумні, але повільні — вони генерують по одному токену за раз, залишаючи більшість GPU без руху. Дифузійні моделі швидкі, але часто дають неузгоджені результати. TiDAR дає вам обох одним пасом вперед. Ось у чому геніальність: Сучасні GPU можуть обробляти набагато більше токенів, ніж ми фактично використовуємо. TiDAR використовує ці «вільні слоти» шляхом: 1. Створення кількох токенів одночасно за допомогою дифузії (фаза «мислення») 2. Перевірка їх за допомогою авторегресії (фаза «розмови») Обидва відбуваються одночасно за допомогою розумних масок уваги — двонаправлені для складання, причинні для перевірки. Результати: ↳ 4,71 рази швидше при параметрах 1,5 Б без втрат якості ↳ Майже в 6 разів швидше за параметрів 8B ↳ Перша архітектура, яка перевершила спекулятивне декодування (EAGLE-3) ↳ Працює зі стандартним кешуванням KV, на відміну від чисто дифузійних моделей Трюк з тренуванням теж хитрий — замість випадкового маскування жетонів вони маскують усе. Це дає сильніші сигнали навчання та забезпечує ефективне одноетапне креслення. Якщо ви створюєте агентів ШІ в реальному часі, де затримка вбиває досвід, на цю архітектуру варто звернути увагу. ...