Skild AI legger kortene på bordet (delvis, i hvert fall). Teleoperasjonsdata mangler mangfold og er begrenset av en 1:1 tidsskala for menneskelig operatør. For å løse dette forhåndstrente Skild modellen sin ved bruk av videodata i internettskala (allerede bredt tilgjengelig i form av førstepersons «ego-sentriske» headcam-opptak til millioner av instruksjonsvideoer på YouTube).
Ved å utnytte denne enorme «biologiske intelligensen» i menneskelige videoer, kan modellen utføre et mangfoldig sett oppgaver med mindre enn én time robotspesifikke data.
Denne tilnærmingen bryter robotikkdataflaskehalsen for å låse opp grunnmodellskala. Modellen tåler også adversariell interferens – den typen robusthet som vanligvis sees i bevegelse.
83