Robôs poderiam aprender habilidades complexas apenas assistindo vídeos humanos. Pesquisadores de Tsinghua, MIT e Astribot apresentam o CLAP. O novo método deles alinha quadros de vídeo com dados de movimento de robôs, criando um "dicionário de ações" compartilhado que traduz ações humanas em comandos robóticos executáveis. Ele supera modelos existentes na transferência de habilidades de vídeos humanos para robôs, permitindo melhor acompanhamento de instruções e manipulação precisa. CLAP: Pré-treinamento de Ação Latente Contrastiva para Aprender Modelos de Visão-Linguagem-Ação a partir de vídeos humanos Papel: Projeto: Nosso relatório: 📬 #PapersAccepted por Jiqizhixin