Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Los robots podrían aprender habilidades complejas simplemente viendo vídeos humanos. Investigadores de Tsinghua, MIT y Astribot presentan el CLAP. Su nuevo método alinea los fotogramas de vídeo con los datos de movimiento de robots, creando un "diccionario de acciones" compartido que traduce acciones humanas en comandos ejecutables de robots. Supera a los modelos existentes en la transferencia de habilidades de vídeos humanos a robots, permitiendo un mejor seguimiento de la instrucción y una manipulación precisa. CLAP: Preentrenamiento contrastivo de acción latente para aprender modelos de visión-lenguaje-acción a partir de vídeos humanos Papel: Proyecto: Nuestro informe: 📬 #PapersAccepted por Jiqizhixin

Populares

Ranking

Favoritas