Roboter kunne lære komplekse ferdigheter bare ved å se på menneskelige videoer. Forskere fra Tsinghua, MIT og Astribot presenterer CLAP. Deres nye metode tilpasser videorammer med robotbevegelsesdata, og skaper en delt "handlingsordbok" som oversetter menneskelige handlinger til kjørbare robotkommandoer. Den overgår eksisterende modeller når det gjelder å overføre ferdigheter fra menneskelige videoer til roboter, noe som muliggjør bedre instruksjonsoppfølging og presis manipulering. CLAP: Kontrastiv latent handlingsfortrening for læring av syn-språk-handlingsmodeller fra menneskelige videoer Artikkel: Prosjekt: Vår rapport: 📬 #PapersAccepted av Jiqizhixin