熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
機器人技術不斷碰壁。
單一任務的強化學習有效,但...無法擴展到數百個任務或新的實現。
這篇新論文看起來是朝著解決這個問題邁出了一步。
團隊介紹了MMBench,一個涵蓋多個領域和機器人的200個任務的基準,以及Newt,一個在所有200個任務上同時在線訓練的語言條件世界模型。
Newt背後的簡單想法:
模型從示範中學習以獲得正確的先驗
通過在線互動在多個任務中進行訓練
使用語言來確定目標
當新任務出現時快速適應
令我印象深刻的是:
✅ 一個模型同時訓練200個任務
✅ 對狀態和RGB的語言條件控制
✅ 比強基準更好的數據效率
✅ 強大的開環控制
✅ 快速適應新任務和實現
✅ 完整釋放200個檢查點、4000個示範、代碼和基準
這是朝著通用控制的一個良好推進,而不是每個任務一個模型。
如果你想要完整的論文:
項目頁面:
...
熱門
排行
收藏

