Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
9-ЛЕТНИЙ ПУТЬ К ГИПЕР-СВЯЗЯМ DEEPSEEK
С Новым годом! Я провел последние два дня, погружаясь в глубокие исследования о происхождении статьи DeepSeek о многообразных ограниченных гипер-связях. Это как-то неожиданно появилось, поэтому я углубился в более ранние работы, на которых это основано.
-> Все начинается с ResNets в 2016 году (формулировка x_{l+1} = x_l + F(x_l)). He и др. показали, что идентичный термин, проходящий без изменений, делает глубокие сети вообще обучаемыми.
-> DenseNet и FractalNet (2016-17) пытались соединить каждый слой с каждым другим слоем. Работало лучше, но связи были фиксированными, поэтому сеть ничего не изучала.
-> DenseFormer в прошлом году сделал веса усреднения обучаемыми. Вы получаете взвешенную комбинацию всех выходов предыдущих слоев (но все еще только один остаточный поток).
-> Гипер-связи с сентября 2024 года пошли в другом направлении. Вместо большего количества связей они делают поток шире. Расширяются от C до n×C измерений, добавляют обучаемые смешивающие матрицы между n потоками.
-> Вот где становится интересно! Когда вы накладываете слои, эти смешивающие матрицы перемножаются. Если они не ограничены, произведение может взорваться. DeepSeek обнаружил увеличение в 3000 раз в своих моделях 27B. Вся суть идентификационного отображения исчезает.
mHC исправляет это, ограничивая смешивающие матрицы быть двойственно стохастическими через итерации Синкгорна-Ноппа. Эти матрицы имеют спектральную норму <= 1 и остаются двойственно стохастическими при перемножении. Увеличение падает до ~1.6x.
Существует хорошая связь с работой Sinkformers 2021 года, которая применяла Синкгорна к матрицам внимания. mHC делает то же самое, но для остаточных связей!
Конечный результат = стабильное обучение, превосходит как базовую линию, так и нестабильные HC, 6.7% накладных расходов после оптимизации систем!!!
Остаточная связь в основном оставалась нетронутой с 2016 года. Это может быть началом чего-то большого LFG.

Топ
Рейтинг
Избранное
