DLLM-er virker lovende ... Men parallell generering er ikke alltid mulig Diffusjonsbaserte LLM-er kan generere mange tokens på forskjellige posisjoner samtidig, mens de fleste autoregressive LLM-er genererer tokens én etter én. Dette gjør diffusjonsbaserte LLM-er svært attraktive når vi trenger rask generering med mindre databehandling. Et stort spørsmål er ... Er parallell generering mulig uten å miste modelleringsnøyaktighet? Svaret er nei. Det er grunnleggende grenser for hvor mye parallellitet vi kan oppnå. Tenk på dette eksemplet: «Velg én by tilfeldig fra følgende fire byer: New York, New Orleans, Mexico City eller Panama City.» Da P(Y₁ = Ny, Y₂ = York) = 1/4, P(Y₁ = Ny, Y₂ = Orleans) = 1/4, og så videre. Dermed er P(Y₁ = Ny) = 1/2, P(Y₂ = By) = 1/2. Hvis du velger å generere Y₁ og Y₂ parallelt, uansett hvilken dekodingsalgoritme du bruker ... Du er dømt til å prøve «New City». Ingen av dagens DLLM-er kan generere disse to ordene riktig uten å gi opp parallellitet. ----- Hvorfor er det slik?...