DEEPSEEKのハイパーコネクションへの9年の道のり 明けましておめでとう!私は過去2日間、DeepSeekの多様制約ハイパーコネクションに関する論文の起源について深い穴に入り込んでいました。ちょっと予想外だったので、その上に積み重なっていく古い作品を調べてみました。 -> すべては2016年のResNets(x_{l+1} = x_l + F(x_l)の定式)から始まります。彼は、修正せずに通過する同一項こそがディープネットワークを訓練可能にすることを示しました。 -> DenseNetとFractalNet(2016-17)は、すべての層を他のすべての層に接続しようと試みました。こちらの方がうまくいきましたが、接続は固定されていたため、ネットワークからは何も学習されませんでした ->DenseFormalは昨年の平均重みを習得可能にしました。過去のすべてのレイヤー出力を重み付けた組み合わせが得られます(ただし残留ストリームは1つだけです)。 -2024年9月からの> Hyper-Connectionsは別の方向へ進みました。接続を増やす代わりに、ストリームを広げるだけです。C次元から×n次元へ展開し、n個のストリーム間に学習可能な混合行列を追加します -> ここからが面白くなるところだ!層を積み重ねると、その混合行列は掛け合います。もし制約がなければ、製品は爆発する可能性があります。DeepSeekの27Bモデルでは約3000倍の利得が検出されました。単位写像の意味は完全に失われています。 mHCはシンクホーン-ノップ反復を用いて混合行列を二重確率的に制約することでこれを解決します。これらの行列はスペクトルノルム<= 1を持ち、掛け算すると二重確率的です。ゲインは~1.6倍に下がります。 2021年のSinkformersの論文と良いつながりがあります。Sinkhornを注意行列に応用した論文です。mHCも同じことをしますが、残留接続に対してです! 最終的な結果は、安定したトレーニングで、ベースラインと不安定なHCの両方を上回り、システム最適化後のオーバーヘッドは6.7%です!! 残留接続は2016年以降、ほとんど手つかずのままです。これが大きな何かの始まりかもしれません、LFG