Robotlar, sadece insan videoları izleyerek karmaşık beceriler öğrenebilir. Tsinghua, MIT ve Astribot'tan araştırmacılar CLAP'ı sunmaktadır. Yeni yöntemleri, video karelerini robot hareket verileriyle hizalayarak, insan eylemlerini çalıştırılabilir robot komutlarına çeviren ortak bir "eylem sözlüğü" oluşturuyor. İnsan videolarından robotlara becerileri aktarmada mevcut modelleri geride bırakarak daha iyi talimatlar takip ve hassas manipülasyon sağlar. CLAP: İnsan Videolarından Görme-Dil-Eylem Modellerini Öğrenmek İçin Karşılaştırmalı Gizli Eylem Ön Eğitimi Makale: Proje: Raporumuz: 📬 #PapersAccepted Jiqizhixin tarafından