Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Los robots podrían aprender habilidades complejas simplemente viendo vídeos humanos.
Investigadores de Tsinghua, MIT y Astribot presentan el CLAP.
Su nuevo método alinea los fotogramas de vídeo con los datos de movimiento de robots, creando un "diccionario de acciones" compartido que traduce acciones humanas en comandos ejecutables de robots.
Supera a los modelos existentes en la transferencia de habilidades de vídeos humanos a robots, permitiendo un mejor seguimiento de la instrucción y una manipulación precisa.
CLAP: Preentrenamiento contrastivo de acción latente para aprender modelos de visión-lenguaje-acción a partir de vídeos humanos
Papel:
Proyecto:
Nuestro informe:
📬 #PapersAccepted por Jiqizhixin

Populares
Ranking
Favoritas
