普遍重み部分空間仮説 私たちの発見は、深層ネットワーク内の情報の本質的な組織化について新たな洞察を提供し、膨大なデータや計算資源を必要とせずにこれらの普遍的な部分空間を発見する可能性について重要な疑問を投げかけます。 ...層ごとのスペクトル分解を行い、主方向のみを保持することで、これらの普遍部分空間の正確な近似を抽出できます。経験的には、この挙動は広く現れます。完全にファインチューニングされたモデルやLoRAベースのアダプター、ゼロから訓練されたモデル、生成的および判別的設定の両方、そしてマルチモーダル構成においてです。さらに、近似された部分空間は分布外の課題にも一般化でき、モデルの射影や少数の係数の学習だけで強い性能を回復できます。これにより、重みを再学習や全重量の保存することなく新しいタスクに適応でき、堅牢なマルチタスク学習、スケーラブルなファインチューニング、原則モデルの統合を単一の統一フレームワーク内でサポートします。 実際的な影響は大きいです。共通の階層ごとの主方向を再利用し、タスクごとに軽量な係数のみを学習することで、大規模モデルを拡張し、計算負荷、メモリ、エンジニアリングのオーバーヘッドを大幅に削減して対応できます。 ...利用可能な事前学習モデルを、個々の個別をばらな係数で表す普遍的な部分空間モデルに効果的にリサイクル・置き換えることができます。この節では、ユニバーサル部分空間を利用して成分を凍結し、勾配降下法で係数を単純に学習することで新しい課題を学習する一連の実験を示します。係数だけを学習しているため、新しいモデルの訓練に必要なパラメータ数が大幅に減ることがわかりました。さらに、これらの係数は単に線形スケーリング値であるため、最適化はより滑らかかつ高速です。