Inteligența artificială pricepută își pune cărțile pe masă (parțial, oricum). Datele de teleoperare nu au diversitate și sunt limitate de o scară de timp 1:1 a operatorului uman. Pentru a rezolva acest lucru, Skild și-a pre-antrenat modelul folosind date video la scară de internet (deja disponibile pe scară largă sub forma unor imagini la persoana întâi "egocentrice" de pe camerele de cap pentru milioane de videoclipuri instructive pe YouTube).
Valorificând această vastă "inteligență biologică" în videoclipurile umane, modelul poate realiza un set divers de sarcini cu mai puțin de o oră de date specifice roboților.
Această abordare deblochează blocajul de date din robotică pentru a debloca scara modelului de fundație. Modelul rezistă, de asemenea, interferențelor adversariale – tipul de robustețe întâlnit de obicei la locomoție.
78