Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Як виглядатиме архітектура LLM наступного покоління?
Це питання постійно викликає дискусії — і співавтор і розробник Zhihu Yuxuan пропонує чітке порівняння між DeepSeek Sparse Attention (DSA) та Native Sparse Attention (NSA), а також практичний огляд впровадження операторів DSA за допомогою TileLang.
🚀 Чому DSA > NSA (у завданнях довгого контексту):
Від експериментів із додаванням DSA до невеликих моделей і порівняння з NSA, DSA стабільно показує кращі результати — головним чином завдяки двом ключовим дизайнерським рішенням:
1️⃣ Attn-Score дистиляція → явний нагляд для вибору індексу
2️⃣ Розрідість на рівні токена, а не на рівні Блоку→ більш детальна, точніша версія
🔍 1) Attn-Score Distillation
Мінімальна увага залежить від вибору правильних пар ключ-значення.
DSA безпосередньо контролює індексний модуль, застосовуючи справжні оцінки уваги, узгоджуючи навчання з реальною метою: «вибрати критичні токени».
Натомість NSA оптимізує лише втрати LM, не встановлюючи явних обмежень на точність індексу — що пояснює її слабшу ефективність на бенчмарках пошуку довгих документів.
🔍 2) Розрідженість токена проти розрідженості на рівні блоку
Точність масштабується відповідно до обчислювального бюджету: точніше індексування → кращий пошук.
Індексація на рівні токена (DSA) природно забезпечує вищу точність, ніж на рівні блоків (NSA).
З цієї точки зору, очікується вузьке місце продуктивності АНБ — цікаве питання: чи допоможе розмір блоку =8 АНБ наздогнати DSA?
⚙️ Справжній виклик: ефективно навчати DSA
Тренування DSA включає розминку → рідкісний тонкий настрой.
Виклик: обчислення та збереження оцінок уваги обох гілок.
Наївна реалізація потребує O(n²) сховища — що нівелює збереження пам'яті FlashAttention.
Навіть попередня фільтрація (k=2048, h=512+64) все одно вимагає великих буферів.
📎 Код:
🧩 Злиття ядра на допомогу (рис. 1)
Щоб уникнути зберігання великих проміжних Attn-Score, DSA використовує злиті ядра.
Ключовий прийом — об'єднання Index-Score + Top-k в одному ядрі:
• Підтримувати буфер 2K
• Обчислити індекс-бал для кожного блоку...

Найкращі
Рейтинг
Вибране

