Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek только что исправил одну из старейших проблем ИИ.
(используя 60-летний алгоритм)
Вот история:
Когда глубокое обучение стало популярным, исследователи столкнулись с проблемой. Нельзя просто бесконечно накладывать слои. Сигналы либо взрываются, либо исчезают. Обучение глубоких сетей было почти невозможным.
ResNets решили эту проблему в 2016 году с помощью остаточных соединений:
выход = вход + то, что слой выучил
Этот "+" создает прямую магистраль для информации. Вот почему мы теперь можем обучать сети с сотнями слоев.
Недавно исследователи задали вопрос: что если у нас будет несколько магистралей вместо одной?
Гипер-соединения (HC) расширили эту единственную полосу на 4 параллельные полосы с обучаемыми матрицами, которые смешивают информацию между потоками.
Увеличение производительности было реальным. Но была проблема:
Эти смешивающие матрицы накапливаются через слои. Небольшое увеличение на 5% на слой становится 18x после 60 слоев. В статье измерялось увеличение до 3000x. Обучение рушится.
Обычные решения? Обрезка градиентов. Осторожная инициализация. Надежда, что все получится.
Это хаки. А хаки не масштабируются.
DeepSeek вернулся к основам. Какое математическое ограничение гарантировало бы стабильность?
Ответ был в статье 1967 года: алгоритм Синкхорна-Ноппа.
Он заставляет смешивающие матрицы быть "двойственно стохастическими", где строки и столбцы в сумме дают 1.
Результаты:
- 3000x нестабильность снижена до 1.6x
- Стабильность гарантирована математикой, а не удачей
- Всего 6.7% дополнительной нагрузки на обучение
Никаких хаков. Только математика.
Я поделился ссылкой на статью в следующем твите.

бумага:
298
Топ
Рейтинг
Избранное
