Це короткий виклад наукової роботи під назвою <a href=" Мультимодальна модель генерації відео-аудіо, інпейнтингу та монтажу.</a> Якщо вам подобаються такі аналізи, приєднуйтесь до <a href=" або слідкуйте за нами
Огляд архітектури SkyReels-V4, що показує гілки генерації відео та аудіо з двопотоковими потоками, що використовують мультимодальний енкодер
Двопотокова архітектура з спільним мультимодальним енкодером, де відео- та аудіо генеруються одночасно, обумовлені однаковим розумінням тексту.
Інформація переходить із текстового запиту до спільного енкодера, розкладається до розуміння, і це розуміння переходить у обидві гілки. Вони не чекають один на одного, але керуються одним і тим самим концептуальним вхідом.
Дифузійні моделі ідеально підходять для такого спільного покоління, оскільки і відео, і аудіо виграють від покрокового доопрацювання. На кожному етапі дифузії відеогілку можна м'яко підштовхнути поточною оцінкою аудіогілки, і навпаки. Це як двоє музикантів, які в реальному часі вдосконалюють свій виступ, кожен слухає і підлаштовується під інший
.Один інтерфейс для генерації, редагування та зображення
Ось де архітектурна елегантність стає практичною силою. Більшість відеомоделей вимагають окремих шляхів коду для «генерувати з нуля», «редагувати це відео» та «розширювати цей кліп». SkyReels-V4 об'єднує всі ці системи під одним механізмом за допомогою конкатенації каналів.
Секрет оманливо простий. Різні вхідні канали можуть бути заповнені різним контентом або залишатися замаскованими:
- Генерація тексту в відео: Усі вхідні канали порожні (масковані), тому модель генерує все з нуля.
- Зображення на відео: Початкове зображення вбудоване в певні канали, інші залишаються порожніми, а модель генерує наступне відео.
- Розширення відео: Існуючі відеокадри заповнюють деякі канали, інші маскуються, і модель генерує те, що відбувається далі.
- Інпейнт: Надається відео з маскованими регіонами, канали цих регіонів порожні, і модель послідовно заповнює прогалини.
- Редагування з посиланням на бачення: І відео для редагування, і референсне зображення з потрібним стилем вбудовуються як кондиціонування, і модель відповідно редагується.
Традиційні підходи вимагають різних моделей або процедур навчання для кожного завдання. SkyReels-V4 навчається одному єдиному процесу дифузії. Під час тренувань він бачить випадкові комбінації заповнених і порожніх каналів і навчається розумно розмальовувати. Такий уніфікований підхід природно поширюється на складні сценарії, де покоління керує множинними посиланнями, що є ключовим для кіновиробництва.
Забезпечення обчислювальної здатності роздільної здатності кіно
Генерація відео у 1080p зі швидкістю 32 кадри на секунду протягом 15 секунд є обчислювально затратною. Ви не можете просто збільшити процес дифузії і сподіватися на реальні випадки. Натомість SkyReels-V4 використовує триетапну стратегію, яка зберігає якість там, де вона найважливіша, одночасно знижуючи обчислювальні витрати в інших місцях.
...