Роботы могут изучать сложные навыки, просто наблюдая за видео с людьми. Исследователи из Цинхуа, MIT и Astribot представляют CLAP. Их новый метод выравнивает кадры видео с данными о движении робота, создавая общий "словарь действий", который переводит человеческие действия в исполняемые команды для робота. Он превосходит существующие модели в передаче навыков от видео с людьми к роботам, позволяя лучше следовать инструкциям и точно манипулировать. CLAP: Контрастная латентная предобучение действий для обучения моделям "визуальный-язык-действие" на основе видео с людьми Статья: Проект: Наш отчет: 📬 #PapersAccepted от Jiqizhixin