9-ЛЕТНИЙ ПУТЬ К ГИПЕР-СВЯЗЯМ DEEPSEEK С Новым годом! Я провел последние два дня, погружаясь в глубокие исследования о происхождении статьи DeepSeek о многообразных ограниченных гипер-связях. Это как-то неожиданно появилось, поэтому я углубился в более ранние работы, на которых это основано. -> Все начинается с ResNets в 2016 году (формулировка x_{l+1} = x_l + F(x_l)). He и др. показали, что идентичный термин, проходящий без изменений, делает глубокие сети вообще обучаемыми. -> DenseNet и FractalNet (2016-17) пытались соединить каждый слой с каждым другим слоем. Работало лучше, но связи были фиксированными, поэтому сеть ничего не изучала. -> DenseFormer в прошлом году сделал веса усреднения обучаемыми. Вы получаете взвешенную комбинацию всех выходов предыдущих слоев (но все еще только один остаточный поток). -> Гипер-связи с сентября 2024 года пошли в другом направлении. Вместо большего количества связей они делают поток шире. Расширяются от C до n×C измерений, добавляют обучаемые смешивающие матрицы между n потоками. -> Вот где становится интересно! Когда вы накладываете слои, эти смешивающие матрицы перемножаются. Если они не ограничены, произведение может взорваться. DeepSeek обнаружил увеличение в 3000 раз в своих моделях 27B. Вся суть идентификационного отображения исчезает. mHC исправляет это, ограничивая смешивающие матрицы быть двойственно стохастическими через итерации Синкгорна-Ноппа. Эти матрицы имеют спектральную норму <= 1 и остаются двойственно стохастическими при перемножении. Увеличение падает до ~1.6x. Существует хорошая связь с работой Sinkformers 2021 года, которая применяла Синкгорна к матрицам внимания. mHC делает то же самое, но для остаточных связей! Конечный результат = стабильное обучение, превосходит как базовую линию, так и нестабильные HC, 6.7% накладных расходов после оптимизации систем!!! Остаточная связь в основном оставалась нетронутой с 2016 года. Это может быть началом чего-то большого LFG.