机器人技术不断碰壁。 单任务强化学习有效,但……它无法扩展到数百个任务或新的实现。 这篇新论文看起来是解决这个问题的真正一步。 团队介绍了MMBench,这是一个涵盖多个领域和机器人的200个任务的基准,以及Newt,一个在所有200个任务上同时在线训练的语言条件世界模型。 Newt背后的简单想法: 模型通过演示学习以获得正确的先验 它通过在线交互在多个任务中进行训练 它使用语言来确定目标 当出现新任务时,它快速适应 让我印象深刻的是: ✅ 一个模型同时在200个任务上训练 ✅ 针对状态和RGB的语言条件控制 ✅ 比强基线更好的数据效率 ✅ 强大的开环控制 ✅ 快速适应新任务和实现 ✅ 完整发布200个检查点、4000个演示、代码和基准 这是朝着通用控制的良好推动,而不是每个任务一个模型。 如果你想要完整的论文: 项目页面: ...