Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Це короткий виклад наукової роботи під назвою <a href=" Мультимодальна модель генерації відео-аудіо, інпейнтингу та монтажу.</a> Якщо вам подобаються такі аналізи, приєднуйтесь до <a href=" або слідкуйте за нами
Огляд архітектури SkyReels-V4, що показує гілки генерації відео та аудіо з двопотоковими потоками, що використовують мультимодальний енкодер

.
Двопотокова архітектура з спільним мультимодальним енкодером, де відео- та аудіо генеруються одночасно, обумовлені однаковим розумінням тексту.

Інформація переходить із текстового запиту до спільного енкодера, розкладається до розуміння, і це розуміння переходить у обидві гілки. Вони не чекають один на одного, але керуються одним і тим самим концептуальним вхідом.

Дифузійні моделі ідеально підходять для такого спільного покоління, оскільки і відео, і аудіо виграють від покрокового доопрацювання. На кожному етапі дифузії відеогілку можна м'яко підштовхнути поточною оцінкою аудіогілки, і навпаки. Це як двоє музикантів, які в реальному часі вдосконалюють свій виступ, кожен слухає і підлаштовується під інший
.
Один інтерфейс для генерації, редагування та зображення

Ось де архітектурна елегантність стає практичною силою. Більшість відеомоделей вимагають окремих шляхів коду для «генерувати з нуля», «редагувати це відео» та «розширювати цей кліп». SkyReels-V4 об'єднує всі ці системи під одним механізмом за допомогою конкатенації каналів.

Секрет оманливо простий. Різні вхідні канали можуть бути заповнені різним контентом або залишатися замаскованими:

Генерація тексту в відео: Усі вхідні канали порожні (масковані), тому модель генерує все з нуля.

Зображення на відео: Початкове зображення вбудоване в певні канали, інші залишаються порожніми, а модель генерує наступне відео.

Розширення відео: Існуючі відеокадри заповнюють деякі канали, інші маскуються, і модель генерує те, що відбувається далі.

Інпейнт: Надається відео з маскованими регіонами, канали цих регіонів порожні, і модель послідовно заповнює прогалини.

Редагування з посиланням на бачення: І відео для редагування, і референсне зображення з потрібним стилем вбудовуються як кондиціонування, і модель відповідно редагується.

Традиційні підходи вимагають різних моделей або процедур навчання для кожного завдання. SkyReels-V4 навчається одному єдиному процесу дифузії. Під час тренувань він бачить випадкові комбінації заповнених і порожніх каналів і навчається розумно розмальовувати. Такий уніфікований підхід природно поширюється на складні сценарії, де покоління керує множинними посиланнями, що є ключовим для кіновиробництва.

Забезпечення обчислювальної здатності роздільної здатності кіно

Генерація відео у 1080p зі швидкістю 32 кадри на секунду протягом 15 секунд є обчислювально затратною. Ви не можете просто збільшити процес дифузії і сподіватися на реальні випадки. Натомість SkyReels-V4 використовує триетапну стратегію, яка зберігає якість там, де вона найважливіша, одночасно знижуючи обчислювальні витрати в інших місцях.
...

Найкращі

Рейтинг

Вибране