トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 10
LeJEPA:ヒューリスティックなしの証明可能かつ拡張可能な自己監督学習
#PaperADay 3のコメントでは、この論文が最先端のJEPA論文として推奨されており、実際かなり良く見えます!
彼らは、これまでのJEPA研究の多くが場当たり的でヒューリスティックなものであることを認めていますが、ここでは最適性を強く理論的に主張し、証明も示しています(私はその証拠を読んでいません)。
最初の主張は、等方性ガウス分布が線形・非線形探査の両方において唯一無二の最適埋め込み分布であり、下流の課題全体で最悪ケースのリスクを最小化するというものです。「いいね」と言えば信じて受け入れたでしょうが、彼らは詳細や例を挙げて話を進めています。
実際に高次元で等方的なガウスを出すのは言うほど簡単ではありません。彼らは、複数の統計的検定を分析した結果、この目的を達成するための良好な挙動型損失関数としてスケッチ等方ガウス正則化(SIGReg)を提示し、線形スケーラビリティを持つ次元の呪いを克服すると主張しています。
最終的な損失は、JEPAの予測損失とSIGRegの等方性損失を重み付けするための混合因子に過ぎません。これはLeJEPAの唯一調整可能なハイパーパラメータです。
JEPAのPはありますが、ここでは予測ネットワークは使わず、JEPA損失のビュー埋め込みを直接比較しています。予測ネットワークは、特にエージェントやロボットのアクション情報と条件付けされていれば、ビデオシーケンスには依然として有用です。
各トレーニング画像は、異なる空間スケールを持つ2つのグローバルビューと6つのローカルビューを生成するように拡張されますが、同じ色と幾何学的変換セットです。損失は、グローバルビュー埋め込みの平均と各ローカルビュー埋め込みの平均MSEです。
彼らのビュー変換におけるトレードオフについてはよく分かりませんが、依然としてアドホックな領域にいるようですが、表現から何がフィルタリングされるかは決まります。重要でないことを学ぶことは重要ですが、「重要」の仕様はビュー変換の中にのみ暗黙的に示されています。
LeJEPA自体はアーキテクチャに依存しません。データセットからサンプルをベクトルに分解するものなら何でも使えます。ビジョントランスフォーマー、MLP、ConvNetなどです。ビューの具体的な拡張は入力モダリティによって異なりますが、LeJEPAアルゴリズムは音声、画像、動画、その他の用途にも対応可能です。
彼らは、大規模な基礎モデルにおけるLeJEPA損失が、直接的かつヒューリスティックを用いて損失の予測力を高めることで、下流のタスク性能を非常に示していることを示しました。
また、1000サンプル程度の小規模データセットでゼロから訓練でき、従来の一般的な基礎モデルをプローブするよりも良い結果が得られることも示しています。
論文でギリシャ語のような疑似コードの代わりにサンプルコードブロックやGitHubリポジトリが掲載されているのを見て嬉しかったです。
付録Dには、Sobol列を変換して差の少ないサンプルで単位超球面を良好にカバーする方法について興味深い詳細がありますが、これは理論解析のためであり、毎バッチごとに新しいランダムなハイパーベクトルを作る方が良いと示されています。16個のランダムベクトルでも、固定された数千個のセットを上回る性能を発揮します。
いくつか質問があります:...
トップ
ランキング
お気に入り
