事前学習済みのエンコーダーも複雑なトリックもありません。 LeWorldModelは、JEPAベースのワールドモデルが生のピクセルからわずか2つの損失項でエンドツーエンドで訓練できることを示しています ~15Mパラメータ、単一GPU、~48×基礎モデルの世界モデルよりも高速な計画。