Os robôs podem aprender habilidades complexas apenas assistindo a vídeos humanos. Pesquisadores da Tsinghua, MIT e Astribot apresentam o CLAP. O novo método alinha quadros de vídeo com dados de movimento do robô, criando um "dicionário de ações" compartilhado que traduz ações humanas em comandos executáveis para robôs. Ele supera os modelos existentes na transferência de habilidades de vídeos humanos para robôs, permitindo um melhor seguimento de instruções e manipulação precisa. CLAP: Pré-treinamento de Ação Latente Contrastiva para Aprender Modelos de Visão-Linguagem-Ação a partir de Vídeos Humanos Artigo: Projeto: Nosso relatório: 📬 #PapersAccepted por Jiqizhixin