Skild AIは(部分的には)手の内をさらけ出しています。 テレオペレーションデータは多様性に欠け、1:1の人間オペレーターの時間スケールに制限されています。 これに対応するため、Skildはインターネット規模のビデオデータ(すでに一人称視点の「自己中心的」ヘッドカム映像として広く利用可能で、数百万本の指導用YouTube動画に提供されている)を使ってモデルを事前学習しました。
この膨大な「生物学的知能」を人間の動画で活用することで、モデルはロボット固有のデータ1時間未満で多様なタスクを遂行できます。
このアプローチはロボティクスデータのボトルネックを打破し、基礎モデルのスケールを解放します。 また、このモデルは対抗的干渉にも耐え、通常は移動で見られるような堅牢性にも耐えます。
75