Los DLLM parecen prometedores... Pero la generación paralela no siempre es posible Los LLM basados en difusión pueden generar muchos tokens en diferentes posiciones a la vez, mientras que la mayoría de los LLM autorregresivos generan tokens uno por uno. Esto hace que los LLM basados en difusión sean muy atractivos cuando necesitamos una generación rápida con menos computación. Una gran pregunta es ... ¿Es posible la generación paralela sin perder precisión de modelado? La respuesta es no. Hay límites fundamentales sobre cuánto paralelismo podemos lograr. Considere este ejemplo: "Elija una ciudad uniformemente al azar de las siguientes cuatro ciudades: Nueva York, Nueva Orleans, Ciudad de México o Ciudad de Panamá". Entonces P(Y₁ = Nuevo, Y₂ = York) = 1/4, P(Y₁ = Nuevo, Y₂ = Orleans) = 1/4, y así sucesivamente. Por lo tanto, P(Y₁ = Nuevo) = 1/2, P(Y₂ = Ciudad) = 1/2. Si elige generar Y₁ e Y₂ en paralelo, sin importar qué algoritmo de decodificación use ... Estás condenado a probar "New City". Ninguno de los DLLM actuales puede generar estas dos palabras correctamente sin renunciar al paralelismo. ----- ¿Por qué es así?...