機器人可以僅通過觀看人類視頻來學習複雜技能。 來自清華大學、麻省理工學院和Astribot的研究人員提出了CLAP。 他們的新方法將視頻幀與機器人運動數據對齊,創建了一個共享的「動作字典」,將人類動作轉換為可執行的機器人命令。 它在將人類視頻中的技能轉移到機器人方面超越了現有模型,使得更好的指令跟隨和精確操作成為可能。 CLAP:對比潛在動作預訓練,用於從人類視頻學習視覺-語言-動作模型 論文: 項目: 我們的報告: 📬 #PapersAccepted 由Jiqizhixin