Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Alibaba випустила чотири маленькі моделі Qwen 3.5 з трюком, запозиченим у їхньої моделі 397B: Gated DeltaNet hybrid attention. Три шари лінійної уваги на кожен шар повної уваги. Лінійні шари виконують рутинні обчислення з постійним використанням пам'яті. Повний шар уваги спрацьовує лише тоді, коли важлива точність. Співвідношення 3:1 зберігає пам'ять на рівні, а якість — на високому рівні, тому навіть модель 0.8B підтримує контекстне вікно на 262 000 токенів. Кожна модель обробляє текст, зображення та відео нативно. Після цього жодного адаптера не було прикручено. Кодувач бачення використовує 3D-згортки для захоплення руху у відео, а потім об'єднує ознаки з кількох шарів замість лише останнього. 9B випереджає GPT-5-Nano на 13 балів у мультимодальному розумінні, на 17 балів у візуальній математиці та на 30 балів у розборі документів. 0.8B працює на телефоні і обробляє відео. 4B вміщується у 8 ГБ VRAM і виконує функції мультимодального агента. Всі чотири — Apache 2.0. Якщо така архітектура збереться, малий простір моделей просто перетвориться на гонку можливостей замість гонки розміру. Рік тому локальне запуск мультимодальної моделі означав модель 13B+ і серйозний GPU. Зараз модель 4B з контекстом 262K обробляє текст, зображення та відео з споживчого обладнання. Розрив між edge-моделями та флагманськими моделями скорочується швидше, ніж між флагманами та людьми.

Найкращі

Рейтинг

Вибране