DLLMs 看起來很有前景……但平行生成並不總是可能的 基於擴散的 LLM 可以同時在不同位置生成許多標記,而大多數自回歸 LLM 則是逐個生成標記。 這使得基於擴散的 LLM 在需要快速生成且計算量較少的情況下非常有吸引力。 一個大問題是……在不失去建模準確性的情況下,平行生成是否可能? 答案是否定的。我們能實現的平行性有基本的限制。 考慮這個例子: “從以下四個城市中均勻隨機選擇一個城市: 紐約、新奧爾良、墨西哥城或巴拿馬城。” 然後, P(Y₁ = New, Y₂ = York) = 1/4, P(Y₁ = New, Y₂ = Orleans) = 1/4,等等。 因此,P(Y₁ = New) = 1/2,P(Y₂ = City) = 1/2。 如果你選擇平行生成 Y₁ 和 Y₂,無論你使用哪種解碼算法…… 你注定會抽樣出“New City”。 當今的 DLLMs 沒有一個能在不放棄平行性的情況下正確生成這兩個詞。 ----- 為什麼會這樣?...