VLA-ii învață controlul din imagini, dar nu înțeleg fizica. Modelele video au. mimic-video propune modele video-acțiune: Folosește un model de difuzie video preantrenat pentru a prezice traiectoriile viitoare, apoi decodează acțiunile din planul său latent.