I robot potrebbero apprendere abilità complesse semplicemente guardando video umani. I ricercatori di Tsinghua, MIT e Astribot presentano CLAP. Il loro nuovo metodo allinea i fotogrammi video con i dati di movimento del robot, creando un "dizionario delle azioni" condiviso che traduce le azioni umane in comandi eseguibili dai robot. Supera i modelli esistenti nel trasferire abilità dai video umani ai robot, consentendo un migliore seguito delle istruzioni e una manipolazione precisa. CLAP: Pre-addestramento di Azioni Latenti Contrastive per l'Apprendimento di Modelli Visione-Lingua-Azione dai Video Umani Carta: Progetto: Il nostro rapporto: 📬 #PapersAccepted da Jiqizhixin