Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Як виглядатиме архітектура LLM наступного покоління? Це питання постійно викликає дискусії — і співавтор і розробник Zhihu Yuxuan пропонує чітке порівняння між DeepSeek Sparse Attention (DSA) та Native Sparse Attention (NSA), а також практичний огляд впровадження операторів DSA за допомогою TileLang. 🚀 Чому DSA > NSA (у завданнях довгого контексту): Від експериментів із додаванням DSA до невеликих моделей і порівняння з NSA, DSA стабільно показує кращі результати — головним чином завдяки двом ключовим дизайнерським рішенням: 1️⃣ Attn-Score дистиляція → явний нагляд для вибору індексу 2️⃣ Розрідість на рівні токена, а не на рівні Блоку→ більш детальна, точніша версія 🔍 1) Attn-Score Distillation Мінімальна увага залежить від вибору правильних пар ключ-значення. DSA безпосередньо контролює індексний модуль, застосовуючи справжні оцінки уваги, узгоджуючи навчання з реальною метою: «вибрати критичні токени». Натомість NSA оптимізує лише втрати LM, не встановлюючи явних обмежень на точність індексу — що пояснює її слабшу ефективність на бенчмарках пошуку довгих документів. 🔍 2) Розрідженість токена проти розрідженості на рівні блоку Точність масштабується відповідно до обчислювального бюджету: точніше індексування → кращий пошук. Індексація на рівні токена (DSA) природно забезпечує вищу точність, ніж на рівні блоків (NSA). З цієї точки зору, очікується вузьке місце продуктивності АНБ — цікаве питання: чи допоможе розмір блоку =8 АНБ наздогнати DSA? ⚙️ Справжній виклик: ефективно навчати DSA Тренування DSA включає розминку → рідкісний тонкий настрой. Виклик: обчислення та збереження оцінок уваги обох гілок. Наївна реалізація потребує O(n²) сховища — що нівелює збереження пам'яті FlashAttention. Навіть попередня фільтрація (k=2048, h=512+64) все одно вимагає великих буферів. 📎 Код: 🧩 Злиття ядра на допомогу (рис. 1) Щоб уникнути зберігання великих проміжних Attn-Score, DSA використовує злиті ядра. Ключовий прийом — об'єднання Index-Score + Top-k в одному ядрі: • Підтримувати буфер 2K • Обчислити індекс-бал для кожного блоку...

Найкращі

Рейтинг

Вибране