Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek щойно виправив одну з найдавніших проблем ШІ.
(використання алгоритму, якому 60 років)
Ось історія:
Коли глибоке навчання набуло популярності, дослідники зіткнулися зі стіною. Не можна просто нескінченно складати шари. Сигнали або вибухають, або зникають. Навчання глибоких мереж було майже неможливим.
ResNets вирішила це питання у 2016 році за допомогою залишкових підключень:
вихід = вхід + те, що навчився шар
Цей «+» створює прямий шлях для отримання інформації. Ось чому ми тепер можемо навчати мережі з сотнями шарів.
Нещодавно дослідники запитали: а що, якби у нас було кілька автомагістралей замість одного?
Hyper-Connections (HC) розширив цю односмугу до 4 паралельних смуг із навчальними матрицями, які змішують інформацію між потоками.
Зростання продуктивності було реальним. Але була проблема:
Ці змішувальні матриці складаються на шарах. Крихітне 5% підсилення на шар стає 18x після 60 шарів. У статті вимірювали ампліфікацію, що досягала 3000x. Колапс тренувань.
Звичайні рішення? Градієнтне обрізання. Обережна ініціалізація. Сподіваюся, що все вийде.
Це хакери. А хаки не масштабуються.
DeepSeek повернулася до перших принципів. Яке математичне обмеження гарантує стабільність?
Відповідь лежала в статті 1967 року: алгоритм Сінкгорна-Кноппа.
Вона змушує змішування матриць бути «подвійно стохастичною», коли рядки та стовпці дорівнюють 1.
Результати:
- 3000x нестабільність зменшена до 1,6x
- Стабільність, гарантована математикою, а не удачою
- Лише 6,7% додаткових навчальних витрат
Жодних хитрощів. Просто математика.
Я поділився посиланням на статтю в наступному твіті.

папір:
302
Найкращі
Рейтинг
Вибране
