Les DLLMs semblent prometteurs... mais la génération parallèle n'est pas toujours possible Les LLMs basés sur la diffusion peuvent générer de nombreux tokens à différentes positions en même temps, tandis que la plupart des LLMs autoregressifs génèrent les tokens un par un. Cela rend les LLMs basés sur la diffusion très attrayants lorsque nous avons besoin d'une génération rapide avec moins de calcul. Une grande question est... la génération parallèle est-elle possible sans perdre en précision de modélisation ? La réponse est non. Il existe des limites fondamentales sur le degré de parallélisme que nous pouvons atteindre. Considérons cet exemple : "Choisissez une ville uniformément au hasard parmi les quatre villes suivantes : New York, La Nouvelle-Orléans, Mexico ou Panama City." Alors, P(Y₁ = New, Y₂ = York) = 1/4, P(Y₁ = New, Y₂ = Orleans) = 1/4, et ainsi de suite. Ainsi, P(Y₁ = New) = 1/2, P(Y₂ = City) = 1/2. Si vous choisissez de générer Y₁ et Y₂ en parallèle, peu importe quel algorithme de décodage vous utilisez... Vous êtes condamné à échantillonner "New City." Aucun des DLLMs d'aujourd'hui ne peut générer ces deux mots correctement sans abandonner le parallélisme. ----- Pourquoi est-ce le cas ?...