トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DreamDojoの発表:ロボットのモーター制御をピクセル単位で未来を生成するオープンソースのインタラクティブな世界モデル。エンジンもメッシュも手動のダイナミクスもありません。これはシミュレーション2.0です。ロボット工学は苦い教訓を受け入れる時です。
実際のロボット学習は時間、摩耗、安全性、リセットによってボトルネックに阻まれます。物理的なAIを事前学習速度で動かしたいなら、できるだけ少ない人間の工学で事前学習スケールに適応できるシミュレーターが必要です。
私たちの主要な洞察は以下の通りです:(1) 人間の自己中心的な動画は、一人称物理学のスケーラブルな情報源であること;(2) 潜在動作により異なるハードウェア間で「ロボットが読み取れる」こと;(3) リアルタイム推論により、ライブテレオプ、ポリシー評価、テストタイム計画が「夢の中で」解放されます。
私たちは4万4千時間分の人間の動画を事前学習しています。安価で豊富で、ロボットが一切関与していない中で収集されています。人類はすでに組合せ論を探求しています。私たちは、混沌としたシーン、視点の変化、光の変化、そして何時間にも及ぶタスクチェーンを、どんなロボット艦隊にも及ばない規模で把握し、注ぎ、折りたたみ、組み立て、失敗し、再挑戦します。欠けているピースは、これらの動画にはアクションラベルがないことです。そこで私たちは潜在的行動を導入します。動画から直接推論される統一表現で、「世界状態間で何が変わったか」を、基盤となるハードウェアを知らずに捉えています。これにより、まるでモーターコマンドが付いているかのように、どんな一人称視点のビデオでもトレーニングできます。
その結果、DreamDojoはゼロショットをロボットの訓練セットでは見たことのない物体や環境にも一般化しています。なぜなら、人間が最初にそれらを見たからです。
次に、各ロボットに特定のハードウェアに合わせてポストトレーニングを行います。「世界の見た目や振る舞い」と「この特定のロボットがどのように作動するか」を分けていると考えてください。ベースモデルは一般的な物理ルールに従い、ロボット固有のメカニクスに「スナップオン」します。これはUnreal Engineに新しいキャラクターやシーンアセットを読み込むようなものですが、グラデーション降下によって行われ、トレーニング後のデータセットをはるかに超えて一般化されます。
ワールドシミュレーターはループを閉じるのに十分な速さで動作しなければ役に立ちません。私たちはDreamDojoのリアルタイムバージョンを10FPSでトレーニングし、1分間以上の連続展開で安定しています。これにより、刺激的な可能性が開かれます:
- 夢の中でのライブテレオペレーション。VRコントローラーを接続し、動作をDreamDojoにストリーミングし、リアルタイムで仮想ロボットをテレオプします。私たちはこれをUnitree G1で、PICOヘッドセットとRTX 5090を組み合わせてデモしています。
- 政策評価。DreamDojoのポリシーチェックポイントは現実世界ではなくベンチマークできます。シミュレーションされた成功率は実際の結果と強く相関しており、モーターを一つも消費せずにチェックポイントを順位付けできるほど正確です。
- モデルベースの計画。複数の行動提案をサンプル→並行してシミュレーション→最良の未来を選びましょう。果物の梱包作業で、箱から出して+17%の実世界での成功率を得ます。
私たちはすべてオープンソース化しています!!重み、コード、トレーニング後のデータセット、評価セット、ホワイトペーパーなど、詳細な再現がたくさんあります。DreamDojoはNVIDIA Cosmosをベースにしており、こちらもオープンウェイトです。
2026年は物理AIの世界モデルの年です。私たちはあなたに共に建設してほしいのです。スケーリングを楽しんでください!
スレッド内のリンク:
トップ
ランキング
お気に入り
