Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NVIDIA щойно опублікувала статтю, яка може вирішити найбільший компроміс у LLM.
Швидкість проти якості.
Авторегресивні моделі (як GPT) розумні, але повільні — вони генерують по одному токену за раз, залишаючи більшість GPU без руху.
Дифузійні моделі швидкі, але часто дають неузгоджені результати.
TiDAR дає вам обох одним пасом вперед.
Ось у чому геніальність:
Сучасні GPU можуть обробляти набагато більше токенів, ніж ми фактично використовуємо. TiDAR використовує ці «вільні слоти» шляхом:
1. Створення кількох токенів одночасно за допомогою дифузії (фаза «мислення»)
2. Перевірка їх за допомогою авторегресії (фаза «розмови»)
Обидва відбуваються одночасно за допомогою розумних масок уваги — двонаправлені для складання, причинні для перевірки.
Результати:
↳ 4,71 рази швидше при параметрах 1,5 Б без втрат якості
↳ Майже в 6 разів швидше за параметрів 8B
↳ Перша архітектура, яка перевершила спекулятивне декодування (EAGLE-3)
↳ Працює зі стандартним кешуванням KV, на відміну від чисто дифузійних моделей
Трюк з тренуванням теж хитрий — замість випадкового маскування жетонів вони маскують усе. Це дає сильніші сигнали навчання та забезпечує ефективне одноетапне креслення.
Якщо ви створюєте агентів ШІ в реальному часі, де затримка вбиває досвід, на цю архітектуру варто звернути увагу.
...

Найкращі
Рейтинг
Вибране

