Robot dapat mempelajari keterampilan kompleks hanya dengan menonton video manusia. Para peneliti dari Tsinghua, MIT, dan Astribot menyajikan CLAP. Metode baru mereka menyelaraskan bingkai video dengan data gerakan robot, menciptakan "kamus tindakan" bersama yang menerjemahkan tindakan manusia menjadi perintah robot yang dapat dieksekusi. Ini mengungguli model yang ada dalam mentransfer keterampilan dari video manusia ke robot, memungkinkan instruksi yang lebih baik mengikuti dan manipulasi yang tepat. CLAP: Prapelatihan Tindakan Laten Kontrasif untuk Mempelajari Model Penglihatan-Bahasa-Tindakan dari Video Manusia Kertas: Proyek: Laporan kami: 📬 #PapersAccepted oleh Jiqizhixin