يتعلم VLA التحكم من الصور، لكنهم لا يفهمون الفيزياء. نماذج الفيديو تفعل ذلك. يقترح محاكاة الفيديو نماذج فيديو-أكشن: استخدم نموذج انتشار فيديو مدرب مسبقا للتنبؤ بالمسارات المستقبلية، ثم فك تشفير الإجراءات من خطته الكامنة.