Robotar kan lära sig komplexa färdigheter bara genom att titta på mänskliga videor. Forskare från Tsinghua, MIT och Astribot presenterar CLAP. Deras nya metod justerar videobilder med robotrörelsedata och skapar en gemensam "handlingsordbok" som översätter mänskliga handlingar till exekverbara robotkommandon. Den överträffar befintliga modeller när det gäller att överföra färdigheter från mänskliga videor till robotar, vilket möjliggör bättre instruktionsföljning och exakt manipulation. CLAP: Kontrastiv latent handlingsförträning för att lära sig vision-language-action-modeller från mänskliga videor Papper: Projekt: Vår rapport: 📬 #PapersAccepted av Jiqizhixin