DLLM tampaknya menjanjikan... Tetapi generasi paralel tidak selalu mungkin LLM berbasis difusi dapat menghasilkan banyak token pada posisi yang berbeda sekaligus, sementara sebagian besar LLM regresif otomatis menghasilkan token satu per satu. Hal ini membuat LLM berbasis difusi sangat menarik ketika kita membutuhkan generasi cepat dengan komputasi yang lebih sedikit. Pertanyaan besar adalah ... Apakah pembuatan paralel dimungkinkan tanpa kehilangan akurasi pemodelan? Jawabannya tidak. Ada batasan mendasar pada seberapa banyak paralelisme yang dapat kita capai. Pertimbangkan contoh ini: "Pilih satu kota secara seragam secara acak dari empat kota berikut: New York, New Orleans, Mexico City, atau Panama City." Kemudian P(Y₁ = Baru, Y₂ = York) = 1/4, P(Y₁ = Baru, Y₂ = Orleans) = 1/4, dan seterusnya. Jadi, P(Y₁ = Baru) = 1/2, P(Y₂ = Kota) = 1/2. Jika Anda memilih untuk menghasilkan Y₁ dan Y₂ secara paralel, apa pun algoritme decoding yang Anda gunakan ... Anda ditakdirkan untuk mencicipi "New City." Tidak ada DLLM saat ini yang dapat menghasilkan dua kata ini dengan benar tanpa melepaskan paralelisme. ----- Mengapa ini terjadi?...