DeepSeekは2025年を締めくくるための素晴らしい論文を発表しました 「mHC:多様体制約されたハイパーコネクション」 ハイパーコネクションは、トランス内の単一の残留「高速道路」をn本の並行車線に変え、各層が車線間のシャッフルや信号共有の方法を学びます。 しかし、各レイヤーがレーンを任意に増幅・縮小できる場合、そのシャッフルの積みで信号や勾配が大きくなったりフェードアウトしたりします。 したがって、各シャッフルは質量保存行列、すなわち二重確率行列(非負、各行・列の合計が1)に強制します。各レイヤーはレーン間で信号を再分配するだけで、生成や破壊はできないため、ディープスキップパスは安定しつつ特徴が混在します! n=4の場合、学習時間は~6.7%増加しますが、最終損失は~0.02削減され、最悪の場合の後退増得は~1.6(制約なしの~3000に対して)維持され、ベンチマーク勝利は一貫しています