VLA'lar kontrolü görüntülerden öğrenir ama fiziği anlamıyorlar. Video modelleri bunu yapar. Mimic-video Video-Eylem Modelleri öneriyor: Gelecekteki yörüngeleri tahmin etmek için önceden eğitilmiş bir video difüzyon modeli kullanın, ardından gizli planından eylemleri çözebilirsiniz.