DLLM vypadají slibně... Paralelní generování však není vždy možné LLM založené na difúzi mohou generovat mnoho tokenů na různých pozicích najednou, zatímco většina autoregresivních LLM generuje tokeny jeden po druhém. Díky tomu jsou LLM založené na difúzi velmi atraktivní, když potřebujeme rychlou generaci s menším výpočetním výkonem. Velkou otázkou je... Je možné paralelní generování bez ztráty přesnosti modelování? Odpověď zní ne. Existují základní limity toho, jak velkého paralelismu můžeme dosáhnout. Uvažujme tento příklad: "Vyberte si jednotně náhodně jedno město z následujících čtyř měst: New York, New Orleans, Mexico City nebo Panama City." Potom P(Y₁ = nový, Y₂ = York) = 1/4, P(Y₁ = nový, Y₂ = Orleánský) = 1/4 a tak dále. Tedy P(Y₁ = Nový) = 1/2, P(Y₂ = Město) = 1/2. Pokud se rozhodnete generovat Y₁ a Y₂ paralelně, bez ohledu na to, jaký dekódovací algoritmus použijete... Jste odsouzeni k tomu, abyste si vyzkoušeli "New City". Žádný z dnešních modelů DLL nedokáže tyto dvě slova správně vygenerovat, aniž by se vzdal paralelismu. ----- Proč tomu tak je?...