Les robots pourraient apprendre des compétences complexes simplement en regardant des vidéos humaines. Des chercheurs de Tsinghua, du MIT et d'Astribot présentent CLAP. Leur nouvelle méthode aligne les images vidéo avec les données de mouvement des robots, créant un "dictionnaire d'actions" partagé qui traduit les actions humaines en commandes exécutables pour les robots. Elle surpasse les modèles existants dans le transfert de compétences des vidéos humaines vers les robots, permettant un meilleur suivi des instructions et une manipulation précise. CLAP : Pré-entraînement d'Action Latente Contrastive pour l'Apprentissage de Modèles Vision-Langage-Action à partir de Vidéos Humaines Article : Projet : Notre rapport : 📬 #PapersAccepted par Jiqizhixin