VLA se učí ovládání z obrazů, ale nerozumí fyzice. Video modely ano. Mimic-Video navrhuje video-akční modely: Použijte předtrénovaný model difúze videa k předpovědi budoucích trajektorií a poté dekódujte akce z jeho latentního plánu.