Cercetări noi de la Meta și colaboratorii săi. Aceasta este o lucrare bună care arată ce este posibil cu modele reale de lume. Modelele lumii au nevoie de acțiuni pentru a prezice consecințele. Abordarea implicită de astăzi necesită date de acțiune etichetate, ceea ce este costisitor de obținut și limitat la domenii restrânse precum jocurile video sau manipularea robotică. Dar marea majoritate a datelor video online nu are deloc etichete de acțiune. Această nouă cercetare abordează învățarea modelelor de lume de acțiune latente direct din videoclipuri din sălbăticie, extinzându-se dincolo de setările controlate ale lucrărilor anterioare pentru a surprinde întreaga diversitate a acțiunilor din lumea reală. Provocarea este semnificativă. Videoclipurile din sălbăticie conțin acțiuni mult dincolo de simpla navigare sau manipulare: oameni care intră în cadre, obiecte care apar și dispar, dansatori care se mișcă, degete care formează acorduri de chitară. De asemenea, nu există o întruchipare consecventă între videoclipuri, spre deosebire de seturile de date robotice, unde același braț apare peste tot. Deci, cum abordează autorii această problemă? Acțiunile latente continue, dar constrânse, folosind regularizare rară sau zgomotoasă, surprind eficient această complexitate a acțiunii. Cuantizarea discretă, abordarea comună în lucrările anterioare, se confruntă cu dificultăți în adaptare. Fără o întrupare comună, modelul învață transformări spațial localizate, relative cu camera. Rezultatele demonstrează un transfer autentic al acțiunilor. Mișcarea unei persoane care merge poate fi aplicată unei mingi zburătoare. Acțiuni precum "cineva intră în cadru" se transferă între videoclipuri complet diferite. Prin antrenarea unui mic controler pentru a mapa acțiunile cunoscute la cele latente, modelul lumii antrenat exclusiv pe videoclipuri naturale poate rezolva sarcini de manipulare robotică și navigare cu performanțe apropiate de modelele antrenate pe date specifice domeniului, etichetate acțiuni. Spațiile de acțiune latente învățate din videoclipuri neetichetate de pe internet pot servi ca o interfață universală pentru planificare, eliminând blocajul adnotării acțiunilor. Hârtie: Învață să construiești agenți AI eficienți în academia noastră: