DeepSeekはAIの最も古い問題の一つを修正しました。 (60年前のアルゴリズムを使用) 話はこうです: ディープラーニングが本格化したとき、研究者たちは壁にぶつかりました。無限にレイヤーを積み重ねることはできません。信号は爆発するか消えたりします。深いネットワークを育てるのはほぼ不可能だった。 ResNetsは2016年に残留接続でこれを解決しました: 出力 = 入力 + レイヤーが学習したこと その「+」は情報の直接的な高速道路を作り出しています。これが、今や数百層のネットワークを訓練できる理由です。 最近、研究者たちはこう問いかけました。もし一本の高速道路ではなく複数の高速道路があったらどうなるだろうか? Hyper-Connections(HC)は、その1レーンを4本の並列レーンに拡張し、ストリーム間で情報を混ぜる学習可能な行列を導入しました。 パフォーマンスの向上は本当にありました。しかし問題がありました。 これらの混合行列は層を越えて複式化します。1層あたりわずか5%の増幅が60層で18倍になります。論文では増幅が3000倍に達しました。トレーニングが崩壊します。 いつもの修正方法は?グラデーションクリッピング。慎重に初期化してください。うまくいくことを願っています。 これはハックだ。そしてハックはスケールしません。 DeepSeekは基本原則に立ち返りました。安定性を保証する数学的制約は何でしょうか? その答えは1967年の論文、シンクホーン・ノップアルゴリズムにありました。 これにより、行列の合計がそれぞれ1になる「二重確率的」行列を強制します。 結果は以下の通りです: - 3000倍の不安定性を1.6倍に減少 - 運ではなく数学で保証される安定性 - 追加の訓練費用は6.7%のみ ハックは禁止。ただの数学です。 次のツイートで論文のリンクを共有しました。
紙:
297