I DLLM sembrano promettenti... ma la generazione parallela non è sempre possibile I LLM basati su diffusione possono generare molti token in diverse posizioni contemporaneamente, mentre la maggior parte degli LLM autoregressivi genera i token uno alla volta. Questo rende gli LLM basati su diffusione altamente attraenti quando abbiamo bisogno di una generazione veloce con meno risorse computazionali. Una grande domanda è... è possibile la generazione parallela senza perdere precisione nel modello? La risposta è no. Ci sono limiti fondamentali su quanto parallelismo possiamo raggiungere. Considera questo esempio: "Scegli una città uniformemente a caso tra le seguenti quattro città: New York, New Orleans, Città del Messico o Panama City." Quindi, P(Y₁ = New, Y₂ = York) = 1/4, P(Y₁ = New, Y₂ = Orleans) = 1/4, e così via. Quindi, P(Y₁ = New) = 1/2, P(Y₂ = City) = 1/2. Se scegli di generare Y₁ e Y₂ in parallelo, non importa quale algoritmo di decodifica usi... Sei destinato a campionare "New City." Nessuno degli attuali DLLM può generare correttamente queste due parole senza rinunciare al parallelismo. ----- Perché è questo il caso?...