To jest podsumowanie artykułu naukowego zatytułowanego <a href=" Multi-modal Video-Audio Generation, Inpainting and Editing model</a>. Jeśli lubisz takie analizy, dołącz <a href=" lub śledź nas na <a href=" <h2>Problem z generowaniem wideo dzisiaj</h2> <p>Od lat generowanie wideo i generowanie dźwięku były obce sobie w oddzielnych laboratoriach. Obecne modele wideo stały się naprawdę imponujące, zdolne do syntezowania fotorealistycznych scen z złożonym ruchem i bogatymi detalami. Jednak działają w próżni, traktując dźwięk jako opcjonalny dodatek lub całkowicie go ignorując.</p> <p>Tworzy to konkretny problem: temporalne niedopasowanie. Kiedy generujesz wideo z deszczem uderzającym w metalowy dach, dźwięk (jeśli w ogóle jest obecny) został stworzony niezależnie. Uderzenie drzwi w wideo nie synchronizuje się z uderzeniem drzwi w dźwięku. Dialog postaci nie pasuje do ruchów ich warg. Efekt jest niepokojący, jak w filmie dubbingowanym, gdzie coś zawsze jest lekko nie tak.</p> <p>Głębszym problemem jest architektura. Większość modeli multimodalnych traktuje tekst jako jedynego dyrygenta, a wszystko inne służy mu. Ale w prawdziwej produkcji filmowej wideo i dźwięk nieustannie się informują. Zbliżenie na deszcz nie dotyczy tylko pikseli, ale także akustyki. Zatłoczona scena na rynku potrzebuje dźwięku, który informuje, które rozmowy są istotne. Operator kamery i inżynier dźwięku muszą współpracować, a nie działać sekwencyjnie.</p> <h2>Dlaczego dźwięk musi powstawać razem z wizją, a nie być dodawany później</h2> <p>Wyobraź sobie dwóch muzyków w ciemnym pomieszczeniu, którzy nie mogą się widzieć, ale uważnie słuchają. Jeden gra na strunach, drugi na perkusji. Dzielą się dyrygentem (podpowiedzią tekstową) i nagraniem referencyjnym (opis sceny). Nie mogą się widzieć, ale słyszą, jak tworzą muzykę i pozostają w rytmie. To jest architektoniczny wgląd SkyReels-V4.</p> <p>Dźwięk nie jest generowany po wideo. Zamiast tego, obie gałęzie generują równolegle, warunkując się nawzajem. Gałąź wideo uczy się, że referencja dźwiękowa zawiera szczekanie psa, więc syntezuję ruch pasujący do czasu i energii tego szczekania. Gałąź audio słyszy, że wideo zawiera psa, więc generuje dźwięki zgodne z obecnością tego zwierzęcia. To zasadniczo różni się od innych podejść, które przyczepiają dźwięk do wideo jako myśl drugorzędną.</p> <p>Kiedy dwa procesy generatywne dzielą to samo zrozumienie wejścia, mogą być zorganizowane. Nie są to niezależne modele przekazywane sekwencyjnie, są to dwie części jednej zjednoczonej myśli.</p> <h2>Architektura: podwójne strumienie z wspólnym umysłem</h2> <p>SkyReels-V4 wykorzystuje <strong>Podwójny Strumień Multimodalnego Transformera Dyfuzji (MMDiT)</strong>, gdzie jedna gałąź syntezuję wideo, a druga generuje dźwięk, podczas gdy obie czerpią z wspólnej koncepcyjnej podstawy. Oto jak elementy pasują do siebie.</p> <p>Gałąź wideo syntezuję klatki w nauczonej przestrzeni latentnej przy użyciu dyfuzji, akceptując bogate warunkowanie wizualne: opisy tekstowe, obrazy referencyjne, maski do inpaintingu, a nawet pełne klipy wideo. Gałąź audio generuje spektrogramy dźwiękowe za pomocą tego samego procesu dyfuzji, warunkując na podstawie tekstu i referencji audio. Obie gałęzie są osadzone w <strong>Multimodalnym Modelu Językowym (MMLM)</strong> opartym na enkoderze tekstu, który rozumie koncepcje wizualne oraz język. Kiedy opisujesz "burzę z piorunami nad polem pszenicy", ten enkoder uchwyca zarówno bogactwo wizualne, jak i oczekiwania dźwiękowe zawarte w tym opisie.
Przegląd architektury SkyReels-V4 pokazujący podwójne strumienie generacji wideo i audio dzielące multimodalny enkoder.
Architektura podwójnego strumienia z wspólnym multimodalnym enkoderem, gdzie gałęzie wideo i audio generują jednocześnie, będąc warunkowane tym samym zrozumieniem tekstu.
Informacje przepływają z podpowiedzi tekstowej do wspólnego enkodera, są rozkładane na zrozumienie, a to zrozumienie przepływa do obu gałęzi. Nie czekają na siebie, ale są zorganizowane przez to samo koncepcyjne wejście.
Modele dyfuzji są idealne do tej wspólnej generacji, ponieważ zarówno wideo, jak i audio korzystają z krok po kroku udoskonalenia. Na każdym kroku dyfuzji gałąź wideo może być delikatnie popychana przez bieżącą estymację gałęzi audio i odwrotnie. To jak dwóch muzyków udoskonalających swoje wystąpienie w czasie rzeczywistym, każdy słuchając i dostosowując się do drugiego.
Jedno interfejs do generacji, edycji i inpaintingu
Oto gdzie elegancja architektoniczna staje się praktyczną mocą. Większość modeli wideo wymaga oddzielnych ścieżek kodowych dla "generowania od zera", "edycji tego wideo" i "rozszerzenia tego klipu". SkyReels-V4 łączy to wszystko w jeden mechanizm przy użyciu konkatenacji kanałów.
Sztuczka jest zwodniczo prosta. Różne kanały wejściowe mogą być wypełnione różnymi treściami lub pozostawione zamaskowane:
- Generacja tekstu na wideo: Wszystkie kanały wejściowe są puste (zamaskowane), więc model generuje wszystko od zera.
- Obraz na wideo: Początkowy obraz jest osadzony w niektórych kanałach, inne pozostają puste, a model generuje wideo, które następuje.
- Rozszerzenie wideo: Istniejące klatki wideo wypełniają niektóre kanały, inne są zamaskowane, a model generuje to, co następuje.
- Inpainting: Wideo z zamaskowanymi obszarami jest dostarczane, te obszary kanałów są puste, a model wypełnia luki spójnie.
- Edycja z odniesieniem do wizji: Zarówno wideo do edycji, jak i obraz referencyjny pokazujący pożądany styl są osadzone jako warunkowanie, a model edytuje odpowiednio.
Tradycyjne podejścia wymagają różnych modeli lub procedur szkoleniowych dla każdego zadania. SkyReels-V4 uczy się jednego zjednoczonego procesu dyfuzji. Podczas szkolenia widzi losowe kombinacje wypełnionych i pustych kanałów i uczy się inteligentnie inpaintować. To zjednoczone podejście naturalnie rozszerza się na złożone scenariusze, w których wiele referencji prowadzi generację, co jest kluczowe dla produkcji na poziomie filmowym.
Uczynienie rozdzielczości filmowej wykonalną obliczeniowo
Generowanie wideo 1080p przy 32 klatkach na sekundę przez 15 sekund jest kosztowne obliczeniowo. Nie możesz po prostu powiększyć procesu dyfuzji i mieć nadzieję na wykonalne czasy wnioskowania. Zamiast tego, SkyReels-V4 wykorzystuje strategię trzech etapów, która utrzymuje jakość tam, gdzie to ma największe znaczenie, jednocześnie redukując koszty obliczeniowe w innych miejscach.
...