I VLAs apprendono il controllo dalle immagini, ma non comprendono la fisica. I modelli video sì. mimic-video propone i Modelli Video-Azione: utilizza un modello di diffusione video pre-addestrato per prevedere le traiettorie future, quindi decodifica le azioni dal suo piano latente.