Roboter könnten komplexe Fähigkeiten nur durch das Ansehen von menschlichen Videos erlernen. Forscher von Tsinghua, MIT und Astribot präsentieren CLAP. Ihre neue Methode stimmt Video-Frames mit Roboterbewegungsdaten ab und erstellt ein gemeinsames "Aktionswörterbuch", das menschliche Aktionen in ausführbare Roboterbefehle übersetzt. Es übertrifft bestehende Modelle beim Übertragen von Fähigkeiten aus menschlichen Videos auf Roboter, was eine bessere Befolgung von Anweisungen und präzise Manipulation ermöglicht. CLAP: Kontrastives latentes Aktionsvortraining zum Lernen von Vision-Language-Action-Modellen aus menschlichen Videos Papier: Projekt: Unser Bericht: 📬 #PapersAccepted von Jiqizhixin