ロボティクスも同じ壁にぶつかり続けています。 単一タスクの強化学習はうまくいきますが...数百のタスクや新しい具現化にスケールするわけではありません。 この新しい論文は、その問題を解決するための本当の一歩のように見えます。 チームはMMBenchというベンチマークを導入しました。これは多くのドメインとロボットにまたがる200のタスクをオンラインで学習した言語条件付き世界モデルです。 ニュートのシンプルな考え方: モデルはデモから学習し、正しい事前処理を得ます オンラインのやり取りを通じて多くのタスクを訓練します 言葉を使って目標を根付かせています 新しいタスクが現れるとすぐに適応します 私が特に印象に残ったのは: ✅ 1つのモデルは同時に200のタスクで訓練されました ✅ 言語条件付き制御は、状態とRGBの両方に対して行われます ✅ 強力なベースラインよりもデータ効率が優れています ✅ 強いオープンループ制御 ✅ 新しい課題や身体化への迅速な適応 ✅ 200のチェックポイント、4000のデモ、コード、ベンチマークの完全リリース これは、1つのタスクに一つのモデルではなく、一般的なコントロールへの良い推進力です。 全文を読みたいなら: プロジェクトページ: —-...