一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Kangwook Lee

威斯康辛大學麥迪遜分校 / 克拉夫頓 AI

DLLMs 看起來很有前景……但平行生成並不總是可能的基於擴散的 LLM 可以同時在不同位置生成許多標記，而大多數自回歸 LLM 則是逐個生成標記。這使得基於擴散的 LLM 在需要快速生成且計算量較少的情況下非常有吸引力。一個大問題是……在不失去建模準確性的情況下，平行生成是否可能？答案是否定的。我們能實現的平行性有基本的限制。考慮這個例子： “從以下四個城市中均勻隨機選擇一個城市：紐約、新奧爾良、墨西哥城或巴拿馬城。” 然後， P(Y₁ = New, Y₂ = York) = 1/4， P(Y₁ = New, Y₂ = Orleans) = 1/4，等等。因此，P(Y₁ = New) = 1/2，P(Y₂ = City) = 1/2。如果你選擇平行生成 Y₁ 和 Y₂，無論你使用哪種解碼算法…… 你注定會抽樣出“New City”。當今的 DLLMs 沒有一個能在不放棄平行性的情況下正確生成這兩個詞。 ----- 為什麼會這樣？事實上，我們從未訓練 LLM 學習在一次前向迭代中多個標記的聯合分佈。我們總是教導基於上下文的單標記邊際分佈。（自回歸模型也是如此。）因此，只有在這些標記在當前上下文下相互獨立的情況下，才能同時抽樣多個標記。而這種平行抽樣的限制可以精確地形式化。可以推導出一個與解碼策略無關的信息理論極限，還可以推導出特定策略的極限。 ----- 那麼 DLLMs 是不是注定失敗？不！它們有巨大的潛力來節省計算和時間。但是：（1）我們需要意識到它們的基本限制，並且（2）我們需要設計更好的訓練和解碼策略。特別是，解碼方面有很大的改進空間。為什麼？理想情況下，我們希望模型在生成過程中控制平行性的程度。同時，它應該選擇一組在當前上下文下幾乎相互獨立的未來標記。當前的解碼策略在這方面表現如何？難以判斷。大多數 DLLMs 從未經受過這方面的壓力測試。 ----- 這就是為什麼我們引入了一個合成基準來壓力測試 DLLMs。我們稱之為 ParallelBench。這個想法很簡單：這些是自然語言任務，但經過精心設計，使得平行生成本質上很困難。（想想“New City”，但更自然、更真實的任務。）我們發現了什麼？我們測試了流行的 DLLMs 和各種解碼算法，沒有一個接近“oracle”性能，即如果模型能在解碼過程中最佳調整其平行性所能達到的理想性能。 ----- 要點：（1）平行生成並不總是可能，更多細節請查看我們的論文 :) （2）如果你能設計一個在我們的基準上達到 oracle 性能的 DLLM，那麼，誰知道呢，你可能會接到來自門洛公園某人的電話。😉