DLLMは有望に思えます...しかし、並列生成が常に可能であるとは限りません 拡散ベースの LLM は、一度に異なる位置で多くのトークンを生成できますが、ほとんどの自己回帰 LLM はトークンを 1 つずつ生成します。 このため、ディフュージョンベースのLLMは、少ないコンピューティングで高速生成が必要な場合に非常に魅力的になります。 大きな疑問は...モデリングの精度を損なうことなく並列生成は可能ですか? 答えはノーです。達成できる並列処理の量には根本的な制限があります。 次の例を考えてみましょう。 「次の4つの都市からランダムに1つの都市を均一に選択します。 ニューヨーク、ニューオーリンズ、メキシコシティ、パナマシティなどです。」 そうしたら P(Y₁ = 新品、Y₂ = ヨーク) = 1/4、 P(Y₁ = New、Y₂ = Orleans) = 1/4 などです。 したがって、P(Y₁ = New) = 1/2、P(Y₂ = City) = 1/2 となります。 Y₁とY₂を並行して生成することを選択した場合、どのデコードアルゴリズムを使用しても... あなたは「ニューシティ」を試飲する運命にあります。 今日のDLLMは、並列処理を放棄せずにこれら2つの単語を正しく生成することはできません。 ----- なぜそうなるのでしょうか?...