DeepSeek щойно виправив одну з найдавніших проблем ШІ. (використання алгоритму, якому 60 років) Ось історія: Коли глибоке навчання набуло популярності, дослідники зіткнулися зі стіною. Не можна просто нескінченно складати шари. Сигнали або вибухають, або зникають. Навчання глибоких мереж було майже неможливим. ResNets вирішила це питання у 2016 році за допомогою залишкових підключень: вихід = вхід + те, що навчився шар Цей «+» створює прямий шлях для отримання інформації. Ось чому ми тепер можемо навчати мережі з сотнями шарів. Нещодавно дослідники запитали: а що, якби у нас було кілька автомагістралей замість одного? Hyper-Connections (HC) розширив цю односмугу до 4 паралельних смуг із навчальними матрицями, які змішують інформацію між потоками. Зростання продуктивності було реальним. Але була проблема: Ці змішувальні матриці складаються на шарах. Крихітне 5% підсилення на шар стає 18x після 60 шарів. У статті вимірювали ампліфікацію, що досягала 3000x. Колапс тренувань. Звичайні рішення? Градієнтне обрізання. Обережна ініціалізація. Сподіваюся, що все вийде. Це хакери. А хаки не масштабуються. DeepSeek повернулася до перших принципів. Яке математичне обмеження гарантує стабільність? Відповідь лежала в статті 1967 року: алгоритм Сінкгорна-Кноппа. Вона змушує змішування матриць бути «подвійно стохастичною», коли рядки та стовпці дорівнюють 1. Результати: - 3000x нестабільність зменшена до 1,6x - Стабільність, гарантована математикою, а не удачою - Лише 6,7% додаткових навчальних витрат Жодних хитрощів. Просто математика. Я поділився посиланням на статтю в наступному твіті.
папір:
302