InfinityStar de ByteDance montre que les modèles autoregressifs peuvent désormais rivaliser avec la diffusion dans la génération vidéo ! En utilisant leur modélisation novatrice "pyramide spatio-temporelle", ils ont non seulement créé un modèle vidéo unifié, mais il est également 10 fois plus rapide que les approches de génération vidéo basées sur la diffusion sans sacrifier la qualité.