Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DLLM здаються перспективними... Але паралельна генерація не завжди можлива
LLM на основі дифузії можуть генерувати багато токенів на різних позиціях одночасно, тоді як більшість авторегресійних LLM генерують токени один за одним.
Це робить LLM на основі дифузії дуже привабливими, коли нам потрібна швидка генерація з меншим обсягом обчислень.
Велике питання полягає в тому, що ... Чи можлива паралельна генерація без втрати точності моделювання?
Відповідь – ні. Існують фундаментальні обмеження щодо того, наскільки паралелізму ми можемо досягти.
Розглянемо такий приклад:
"Виберіть одне місто рівномірно навмання з наступних чотирьох міст:
Нью-Йорк, Новий Орлеан, Мехіко або Панама-Сіті».
То
P(Y₁ = Новий, Y₂ = Йорк) = 1/4,
P(Y₁ = Новий, Y₂ = Орлеанський) = 1/4 і так далі.
Таким чином, p(Y₁ = Новий) = 1/2, P(Y₂ = Місто) = 1/2.
Якщо ви вирішите генерувати Y₁ та Y₂ паралельно, незалежно від того, який алгоритм декодування ви використовуєте ...
Ви приречені на пробу «Нового міста».
Жоден із сучасних DLLM не може правильно згенерувати ці два слова, не відмовляючись від паралелізму.
-----
Чому так?...



Найкращі
Рейтинг
Вибране

