Роботи можуть опановувати складні навички, просто дивлячись людські відео. Дослідники з Цінхуа, MIT та Astribot представляють CLAP. Їхній новий метод узгоджує відеокадри з даними руху робота, створюючи спільний «словник дій», який перекладає людські дії у виконувані команди робота. Він перевершує існуючі моделі у передачі навичок з людських відео на роботів, що дозволяє краще слідувати інструкціям і точніше маніпулювати. CLAP: Контрастне латентне попереднє навчання для вивчення моделей зору-мови-дії з людських відео Стаття: Проєкт: Наш звіт: 📬 #PapersAccepted від Jiqizhixin