機器人技術不斷碰壁。 單一任務的強化學習有效,但...無法擴展到數百個任務或新的實現。 這篇新論文看起來是朝著解決這個問題邁出了一步。 團隊介紹了MMBench,一個涵蓋多個領域和機器人的200個任務的基準,以及Newt,一個在所有200個任務上同時在線訓練的語言條件世界模型。 Newt背後的簡單想法: 模型從示範中學習以獲得正確的先驗 通過在線互動在多個任務中進行訓練 使用語言來確定目標 當新任務出現時快速適應 令我印象深刻的是: ✅ 一個模型同時訓練200個任務 ✅ 對狀態和RGB的語言條件控制 ✅ 比強基準更好的數據效率 ✅ 強大的開環控制 ✅ 快速適應新任務和實現 ✅ 完整釋放200個檢查點、4000個示範、代碼和基準 這是朝著通用控制的一個良好推進,而不是每個任務一個模型。 如果你想要完整的論文: 項目頁面: ...