AMIラボは103億ドルを調達しました。ワールド・ラボは数週間前に10億ドルを調達しました。両者とも世界モデルに賭けています。 しかし、その言葉で同じ意味を持つ人はほとんどいません。 ここに、私の見解では世界モデルの5つのカテゴリーがあります。 --- 1. ジョイント埋め込み予測アーキテクチャ(JEPA) 代表者:AMIラボ(@ylecun)、V-JEPA 2 ここでの中心的な主張は、ピクセル再構成だけでは物理的理解に必要な抽象化を学ぶには非効率的であるということです。ルカンは何年も前からこう言っています――未来のすべてのピクセルを予測することは、どんな確率的環境でも不可解だと。JEPAは学習した潜在空間で予測することでこれを回避しています。 具体的には、JEPAはビデオパッチを表現にマッピングするエンコーダを訓練し、その表示空間内のマスク領域を予測する予測器を訓練します(ピクセル空間ではありません)。 これは重要な設計の選択です。 ピクセルを再構成する生成モデルは、本質的に予測不可能な低レベルの詳細(正確なテクスチャ、ライティング、葉の位置)にコミットせざるを得ません。抽象的な埋め込みを処理することで、「ボールがテーブルから落ちる」という現象を、落下のフレームごとに幻覚を想定することなくキャプチャできます。 V-JEPA 2はこれまでで最も明確な大規模証拠です。これは1.2Bパラメータモデルで、100万+時間の動画で自己監督マスク予測を用いて事前学習されたもので、ラベルもテキストもありません。第二の訓練段階が面白いところで、DROIDデータセットから62時間分のロボットデータだけで、ゼロショット計画をサポートするアクション条件付き世界モデルを作成できます。ロボットは候補アクションシーケンスを生成し、それらをワールドモデル内で順にロールし、目標画像に最も合致する結果の予測を選びます。これは訓練中に見たことのない物体や環境にも効果があります。 データの効率こそが本当の技術的な見出しです。62時間はほとんど何もありません。多様な動画での自己監督型事前学習は、物理的な事前知識を十分に活用できるため、後からはドメイン固有のデータが非常に少なくて済みます。これはJEPAの設計を強く支持する理由です。表現が十分に優れていれば、すべての作業を一から力任せで解決する必要はありません。 AMI Labsは、LeCunがこの分野を研究の枠を超えて推進しようとする試みです。まずは医療とロボティクスをターゲットにしており、限られたデータで物理的推論に長けているJEPAの強みを考えれば納得できます。しかしこれは長期的な賭けであり、CEOは商用製品が何年も先になる可能性があると公言しています。 --- 2. 空間知能(3Dワールドモデル) 代表:ワールド・ラボ(@drfeifei) ...