DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Roboter könnten komplexe Fähigkeiten nur durch das Ansehen von menschlichen Videos erlernen. Forscher von Tsinghua, MIT und Astribot präsentieren CLAP. Ihre neue Methode stimmt Video-Frames mit Roboterbewegungsdaten ab und erstellt ein gemeinsames "Aktionswörterbuch", das menschliche Aktionen in ausführbare Roboterbefehle übersetzt. Es übertrifft bestehende Modelle beim Übertragen von Fähigkeiten aus menschlichen Videos auf Roboter, was eine bessere Befolgung von Anweisungen und präzise Manipulation ermöglicht. CLAP: Kontrastives latentes Aktionsvortraining zum Lernen von Vision-Language-Action-Modellen aus menschlichen Videos Papier: Projekt: Unser Bericht: 📬 #PapersAccepted von Jiqizhixin

Top

Ranking

Favoriten