Toto je shrnutí výzkumné práce nazvané <a href=" Multimodální model generování videa a zvuku, inpaintingu a editace</a>. Pokud máte rádi tyto druhy analýz, přidejte se k <a href=" nebo nás sledujte na <a href=" <h2>Problém s generováním videa dnes</h2> Po <p>léta byly generování videa a zvuku cizinci v oddělených laboratořích. Současné video modely jsou skutečně působivé, schopné syntetizovat fotorealistické scény s komplexním pohybem a bohatými detaily. Přesto fungují ve vakuu, považují zvuk za volitelnou dekoraci nebo ho zcela ignorují.</p> <p>To vytváří konkrétní problém: časové nesoulad. Když vytvoříte video deště dopadajícího na kovovou střechu, zvuk (pokud vůbec existuje) byl vytvořen nezávisle. Bouchnutí dveřmi ve videu se nesynchronizuje s prásknutím ve zvuku. Dialogy postavy neodpovídají pohybům rtů. Výsledek působí znepokojivě, jako dabovaný film, kde je vždy něco trochu mimo.</p> <p>Hlubší problém je architektonický. Většina multimodálních modelů považuje text za jediného vodiče, zatímco vše ostatní mu slouží. Ale v reálné filmové produkci se video a zvuk neustále ovlivňují. Těsný záběr deště není jen o pixelech, ale i o akustice. Přeplněný trh potřebuje zvuk, který vám řekne, které rozhovory jsou důležité. Kameraman a zvukař musí spolupracovat, ne pracovat sekvenčně.</p> <h2>Proč zvuk musí vznikat s zrakem, ne přidávat později</h2> <p>Představte si dva hudebníky v potemnělé místnosti, kteří se nemohou vidět, ale pozorně poslouchají. Jeden hraje na smyčce, druhý na perkuse. Sdílejí dirigenta (textový prompt) a referenční nahrávku (popis scény). Nevidí se navzájem, ale slyší se, jak tvoří hudbu, a zůstávají v rytmu. To je architektonický vhled SkyReels-V4.</p> <p>Zvuk se zde po videu negeneruje. Místo toho se obě větve generují paralelně, vzájemně se podmiňují. Video větev zjistí, že zvuková reference obsahuje štěkání psa, takže syntetizuje pohyb odpovídající načasování a energii tohoto štěkání. Zvuková větev slyší, že video obsahuje psa, takže generuje zvuky odpovídající přítomnosti tohoto zvířete. To je zásadně odlišné od jiných přístupů, které přidávají zvuk na video jako dodatečnou myšlenku.</p> <p>Když dva generativní procesy sdílejí stejné porozumění vstupům, mohou být orchestrálně koordinovány. Nejsou to nezávislé modely předávané postupně, jsou to dvě části jedné jednotné myšlenky.</p> <h2>Architektura: dvojí proudy se sdílenou myslí</h2> <p>SkyReels-V4 používá <strong>Dual-stream Multimodal Diffusion Transformer (MMDiT),</strong> kde jedna větev syntetizuje video a druhá generuje zvuk, přičemž obě čerpají ze společného koncepčního základu. Takto do sebe jednotlivé dílky zapadají.</p> <p>Video větev syntetizuje snímky v naučeném latentním prostoru pomocí difuze, přijímá bohaté vizuální podmínění: textové popisy, referenční obrázky, masky pro inpainting, dokonce i celé videoklipy. Zvuková větev generuje zvukové spektrogramy stejným difuzním procesem, podmíněným textovými a zvukovými referencemi. Obě větve jsou založeny na textovém kodéru založeném na <strong>multimodálním velkém jazykovém modelu (MMLM),</strong> který rozumí vizuálním konceptům i jazyku. Když popisujete "bouřku nad pšeničným polem", tento enkodér zachycuje jak vizuální bohatství, tak zvuková očekávání obsažená v tomto popisu.
Přehled architektury SkyReels-V4 ukazující větve generování videa a zvuku s duálním proudem sdílející multimodální enkodér.
Architektura s duálním proudem a sdíleným multimodálním enkodérem, kde se video a audio větve generují současně, přičemž jsou podmíněny stejným porozuměním textu.
Informace proudí z textového zadání do sdíleného enkodéru, rozkládají se na porozumění a toto porozumění proudí do obou větví. Nečekají na sebe, ale jsou orchestrálně řízeny stejným konceptuálním vstupem.
Difuzní modely jsou ideální pro tuto generaci kloubů, protože jak video, tak audio těží z postupného zdokonalování. Při každém difuzním kroku lze video větev jemně posunout aktuálním odhadem zvukové větve a naopak. Je to jako kdyby dva hudebníci v reálném čase zdokonalovali svůj výkon, každý poslouchal a přizpůsoboval se tomu druhému.
Jedno rozhraní pro generování, úpravy a inpainting
Zde se architektonická elegance stává praktickou silou. Většina video modelů vyžaduje samostatné cesty kódu pro "generování od začátku", "úprava tohoto videa" a "prodloužení tohoto klipu". SkyReels-V4 sjednocuje všechny tyto prvky pod jedním mechanismem pomocí konkatenace kanálů.
Trik je klamavě jednoduchý. Různé vstupní kanály mohou být naplněny různým obsahem, nebo ponechány maskované:
- Generování textu na video: Všechny vstupní kanály jsou prázdné (maskované), takže model generuje vše od začátku.
- Převod z obrazu na video: Počáteční obraz je vložen do určitých kanálů, jiné zůstávají prázdné a model generuje následující video.
- Rozšíření videa: Některé kanály vyplňují stávající video rámce, jiné jsou maskované a model generuje, co následuje.
- Inpainting: Je poskytnuto video s maskovanými oblastmi, kanály těchto oblastí jsou prázdné a model vyplňuje mezery koherentně.
- Střih s odkazem na vizi: Jak video k úpravě, tak referenční obrázek s požadovaným stylem jsou vloženy jako podmiňování a model se podle toho upravuje.
Tradiční přístupy vyžadují různé modely nebo tréninkové postupy pro každý úkol. SkyReels-V4 se učí jeden jednotný proces difúze. Během tréninku vidí náhodné kombinace vyplněných a prázdných kanálů a učí se inteligentně malovat. Tento jednotný přístup se přirozeně rozšiřuje i na složité scénáře, kde generování řídí více odkazů, což je pro filmovou produkci zásadní.
Zpřístupnění rozlišení kina výpočetně
Generování videa v rozlišení 1080p rychlostí 32 snímků za sekundu po dobu 15 sekund je výpočetně náročné. Nemůžete jednoduše zvětšit proces difuze a doufat v reálné doby odvozování. Místo toho SkyReels-V4 používá třífázovou strategii, která udržuje kvalitu tam, kde je to nejdůležitější, a zároveň snižuje výpočetní náklady jinde.
...