Roboti by se mohli naučit složité dovednosti jen sledováním lidských videí. Výzkumníci z Tsinghua, MIT a Astribotu představují CLAP. Jejich nová metoda slaďuje video snímky s daty pohybu robotů a vytváří sdílený "slovník akcí", který převádí lidské akce na spustitelné robotické příkazy. Překonává stávající modely v přenosu dovedností z lidských videí na roboty, což umožňuje lepší sledování instrukcí a přesnou manipulaci. CLAP: Kontrastivní latentní akční předtrénování pro učení modelů vidění-jazyka-akce z lidských videí Článek: Projekt: Naše zpráva: 📬 #PapersAccepted od Jiqizhixina