Roboty mogą uczyć się skomplikowanych umiejętności tylko przez oglądanie filmów z ludźmi. Naukowcy z Tsinghua, MIT i Astribot przedstawiają CLAP. Ich nowa metoda synchronizuje klatki wideo z danymi ruchu robotów, tworząc wspólny "słownik akcji", który tłumaczy ludzkie działania na wykonywalne polecenia dla robotów. Przewyższa istniejące modele w przenoszeniu umiejętności z filmów ludzkich do robotów, umożliwiając lepsze wykonywanie instrukcji i precyzyjną manipulację. CLAP: Kontrastowe wstępne uczenie akcji latentnych do nauki modeli wizji-języka-akcji z filmów ludzkich Artykuł: Projekt: Nasz raport: 📬 #PapersAccepted przez Jiqizhixin