机器人可以通过观看人类视频学习复杂技能。 来自清华大学、麻省理工学院和Astribot的研究人员提出了CLAP。 他们的新方法将视频帧与机器人运动数据对齐,创建了一个共享的“动作字典”,将人类动作转换为可执行的机器人指令。 它在将人类视频中的技能转移到机器人方面优于现有模型,使得更好的指令跟随和精确操作成为可能。 CLAP:对比潜在动作预训练,用于从人类视频中学习视觉-语言-动作模型 论文: 项目: 我们的报告: 📬 #PapersAccepted 由极智信