Los robots podrían aprender habilidades complejas solo con ver videos humanos. Investigadores de Tsinghua, MIT y Astribot presentan CLAP. Su nuevo método alinea los fotogramas de video con los datos de movimiento del robot, creando un "diccionario de acciones" compartido que traduce las acciones humanas en comandos ejecutables para robots. Supera a los modelos existentes en la transferencia de habilidades de videos humanos a robots, permitiendo un mejor seguimiento de instrucciones y una manipulación precisa. CLAP: Preentrenamiento de Acción Latente Contrastiva para Aprender Modelos de Visión-Lenguaje-Acción a partir de Videos Humanos Artículo: Proyecto: Nuestro informe: 📬 #PapersAccepted por Jiqizhixin