DeepSeek только что исправил одну из старейших проблем ИИ. (используя 60-летний алгоритм) Вот история: Когда глубокое обучение стало популярным, исследователи столкнулись с проблемой. Нельзя просто бесконечно накладывать слои. Сигналы либо взрываются, либо исчезают. Обучение глубоких сетей было почти невозможным. ResNets решили эту проблему в 2016 году с помощью остаточных соединений: выход = вход + то, что слой выучил Этот "+" создает прямую магистраль для информации. Вот почему мы теперь можем обучать сети с сотнями слоев. Недавно исследователи задали вопрос: что если у нас будет несколько магистралей вместо одной? Гипер-соединения (HC) расширили эту единственную полосу на 4 параллельные полосы с обучаемыми матрицами, которые смешивают информацию между потоками. Увеличение производительности было реальным. Но была проблема: Эти смешивающие матрицы накапливаются через слои. Небольшое увеличение на 5% на слой становится 18x после 60 слоев. В статье измерялось увеличение до 3000x. Обучение рушится. Обычные решения? Обрезка градиентов. Осторожная инициализация. Надежда, что все получится. Это хаки. А хаки не масштабируются. DeepSeek вернулся к основам. Какое математическое ограничение гарантировало бы стабильность? Ответ был в статье 1967 года: алгоритм Синкхорна-Ноппа. Он заставляет смешивающие матрицы быть "двойственно стохастическими", где строки и столбцы в сумме дают 1. Результаты: - 3000x нестабильность снижена до 1.6x - Стабильность гарантирована математикой, а не удачей - Всего 6.7% дополнительной нагрузки на обучение Никаких хаков. Только математика. Я поделился ссылкой на статью в следующем твите.
бумага:
298