Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Les DLLMs semblent prometteurs... mais la génération parallèle n'est pas toujours possible
Les LLMs basés sur la diffusion peuvent générer de nombreux tokens à différentes positions en même temps, tandis que la plupart des LLMs autoregressifs génèrent les tokens un par un.
Cela rend les LLMs basés sur la diffusion très attrayants lorsque nous avons besoin d'une génération rapide avec moins de calcul.
Une grande question est... la génération parallèle est-elle possible sans perdre en précision de modélisation ?
La réponse est non. Il existe des limites fondamentales sur le degré de parallélisme que nous pouvons atteindre.
Considérons cet exemple :
"Choisissez une ville uniformément au hasard parmi les quatre villes suivantes :
New York, La Nouvelle-Orléans, Mexico ou Panama City."
Alors,
P(Y₁ = New, Y₂ = York) = 1/4,
P(Y₁ = New, Y₂ = Orleans) = 1/4, et ainsi de suite.
Ainsi, P(Y₁ = New) = 1/2, P(Y₂ = City) = 1/2.
Si vous choisissez de générer Y₁ et Y₂ en parallèle, peu importe quel algorithme de décodage vous utilisez...
Vous êtes condamné à échantillonner "New City."
Aucun des DLLMs d'aujourd'hui ne peut générer ces deux mots correctement sans abandonner le parallélisme.
-----
Pourquoi est-ce le cas ?...



Meilleurs
Classement
Favoris

