Хаки не масштабуються. Математика — так. DeepSeek це довела. Вони випустили хіт на завершення 2025 року. "mHC: Гіперзв'язки, обмежені в многообразі." Ось чому це важливо: Коли глибоке навчання набуло популярності, дослідники зіткнулися зі стіною. Не можна просто безкінечно складати шари; Сигнали або вибухають, або зникають. Навчання глибоких мереж було майже неможливим. ResNets вирішила це питання у 2016 році за допомогою залишкових підключень: вихід = вхід + те, що навчився шар Цей «+» створює прямий шлях для отримання інформації. Ось чому ми тепер можемо навчати мережі з сотнями шарів. Нещодавно дослідники запитали: А що, якби у нас було кілька шосе замість одного? Hyper-Connections (HC) розширив цю односмугу до 4 паралельних смуг із навчальними матрицями, які змішують інформацію між потоками. Зростання продуктивності було реальним. Але була проблема: Ці змішувальні матриці складаються на шарах. Крихітне 5% підсилення на шар стає 18x після 60 шарів. У статті вимірювали ампліфікацію до 3000x, що призвело до колапсів тренувань. Звичайні рішення: градієнтне обрізання, обережна ініціалізація і сподівання, що все вийде. DeepSeek повернувся до перших принципів: яке математичне обмеження гарантує стабільність? Відповідь ховалася в алгоритмі, якому 59 років (Сінкгорн-Кнопп, 1967) Це змушує змішування матриці бути подвійно стохастичними, тобто рядки та стовпці дорівнюють 1. Результати: - 3000x нестабільність → 1,6x - Стабільність, гарантована математикою, а не удачою - Лише 6,7% додаткових навчальних витрат Жодних хитрощів. Просто математика. Якщо хочете прочитати більше, я поділився посиланням на статтю в наступному твіті.
папір:
189