Os VLAs aprendem a controlar a partir de imagens, mas não entendem física. Os modelos de vídeo entendem. O mimetismo de vídeo propõe Modelos de Ação em Vídeo: usar um modelo de difusão de vídeo pré-treinado para prever trajetórias futuras, e depois decodificar ações a partir do seu plano latente.