DLLMs scheinen vielversprechend zu sein... aber parallele Generierung ist nicht immer möglich Diffusionsbasierte LLMs können viele Tokens an verschiedenen Positionen gleichzeitig generieren, während die meisten autoregressiven LLMs Tokens nacheinander generieren. Das macht diffusionsbasierte LLMs sehr attraktiv, wenn wir eine schnelle Generierung mit weniger Rechenaufwand benötigen. Eine große Frage ist … ist parallele Generierung möglich, ohne die Modellierungsgenauigkeit zu verlieren? Die Antwort ist nein. Es gibt grundlegende Grenzen dafür, wie viel Parallelität wir erreichen können. Betrachten Sie dieses Beispiel: „Wählen Sie eine Stadt gleichmäßig zufällig aus den folgenden vier Städten: New York, New Orleans, Mexiko-Stadt oder Panama-Stadt.“ Dann, P(Y₁ = New, Y₂ = York) = 1/4, P(Y₁ = New, Y₂ = Orleans) = 1/4, und so weiter. Daher ist P(Y₁ = New) = 1/2, P(Y₂ = City) = 1/2. Wenn Sie sich entscheiden, Y₁ und Y₂ parallel zu generieren, egal welchen Decodierungsalgorithmus Sie verwenden … Sie sind dazu verurteilt, „New City“ zu sampeln. Keines der heutigen DLLMs kann diese beiden Wörter korrekt generieren, ohne die Parallelität aufzugeben. ----- Warum ist das so?...