Robot có thể học các kỹ năng phức tạp chỉ bằng cách xem video của con người. Các nhà nghiên cứu từ Tsinghua, MIT và Astribot giới thiệu CLAP. Phương pháp mới của họ căn chỉnh các khung video với dữ liệu chuyển động của robot, tạo ra một "từ điển hành động" chung giúp dịch các hành động của con người thành các lệnh có thể thực thi cho robot. Nó vượt trội hơn các mô hình hiện có trong việc chuyển giao kỹ năng từ video của con người sang robot, cho phép theo dõi hướng dẫn tốt hơn và thao tác chính xác. CLAP: Huấn luyện Hành động Tiềm ẩn Đối kháng để Học các Mô hình Hình ảnh-Ngôn ngữ-Hành động từ Video của Con người Bài báo: Dự án: Báo cáo của chúng tôi: 📬 #PapersAccepted bởi Jiqizhixin