Tämä on Plain English Papers -yhteenveto tutkimusartikkelista nimeltä <a href=" Multi-modal Video-Audio Generation, Inpainting and Editing Model</a>. Jos pidät tällaisista analyyseistä, liity <a href=" tai seuraa meitä <a href=" <h2>Ongelma videotuotannossa nykyään</h2> <p>Vuosien ajan videon ja äänen tuottaminen ovat olleet vieraita eri laboratorioissa. Nykyiset videomallit ovat muuttuneet aidosti vaikuttaviksi, kykenevät yhdistämään valokuvarealistisia kohtauksia monimutkaisella liikkeellä ja rikkailla yksityiskohdilla. Silti ne toimivat tyhjiössä, pitäen ääntä vapaaehtoisena koristeena tai jättäen sen kokonaan huomiotta.</p> <p>Tämä luo konkreettisen ongelman: ajallisen epäkohdistuksen. Kun tuotat videon, jossa sade osuu metallikattoon, ääni (jos sitä ylipäätään on) luotiin itsenäisesti. Oven paiskaus videolla ei synkronoidu äänen ovien paiskauksen kanssa. Hahmon dialogi ei vastaa hänen huuliikkeitään. Lopputulos tuntuu oudolta, kuin dubattu elokuva, jossa jokin on aina hieman pielessä.</p> <p>Syvempi ongelma on arkkitehtoninen. Useimmat multimodaalimallit käsittelevät tekstiä ainoana johtimena, ja kaikki muu palvelee sitä. Mutta oikeassa elokuvatuotannossa video ja ääni vaikuttavat toisiinsa jatkuvasti. Tiivis sateen otos ei ole pelkästään pikseleistä, vaan myös akustiikasta. Täysi markkinakenttä tarvitsee äänen, joka kertoo, mitkä keskustelut ovat tärkeitä. Kuvaajan ja ääniteknikon täytyy tehdä yhteistyötä, ei työskennellä peräkkäin.</p> <h2>Miksi äänen täytyy syntyä visiona, ei lisätä myöhemmin</h2> <p>Kuvittele kaksi muusikkoa pimeässä huoneessa, jotka eivät näe toisiaan mutta kuuntelevat tarkasti. Toinen soittaa jousia, toinen lyömäsoittimia. He jakavat kapellimestarin (tekstikehote) ja viitetallenteen (kohtauksen kuvaus). He eivät näe toisiaan, mutta kuulevat itsensä tekemässä musiikkia ja pysyvät ajassa. Tämä on SkyReels-V4:n arkkitehtoninen oivallus.</p> <p>Ääni ei synny videon jälkeen täällä. Sen sijaan molemmat haarat syntyvät rinnakkain, ehdollistaen toisiaan. Videohaara oppii, että ääniviitteessä on koiran haukkuminen, joten se synteettisesti yhdistää liikkeen haukun ajoituksen ja energian. Ääniosasto kuulee, että videossa on koira, joten se tuottaa ääniä, jotka vastaavat kyseisen eläimen läsnäoloa. Tämä eroaa perustavanlaatuisesti muista menetelmistä, joissa ääni kiinnitetään videoon jälkikäteen.</p> <p>Kun kaksi generatiivista prosessia jakavat saman syötteen ymmärryksen, ne voidaan orkestroida. Ne eivät ole itsenäisiä malleja, jotka jaetaan peräkkäin, vaan kaksi osaa yhdestä yhtenäisestä ajatuksesta.</p> <h2>Arkkitehtuuri: kaksoisvirta yhteisellä mielellä</h2> <p>SkyReels-V4 käyttää <strong>Dual-stream Multimodal Diffusion Transformer (MMDiT</strong>) -yksikköä, jossa toinen haara synteesi videota ja toinen tuottaa ääntä, samalla kun molemmat ammentavat yhteisestä konseptuaalisesta perustasta. Näin palaset loksahtavat yhteen.</p> <p>Videohaara synteesi kehyksiä opitussa latenttitilassa diffuusion avulla, hyväksyen rikkaan visuaalisen ehdollistamisen: tekstikuvaukset, viitekuvat, naamiot maalaamista varten, jopa kokonaisia videoleikkeitä. Äänihaara tuottaa äänispektrogrammeja saman diffuusioprosessin kautta, ehdollisena tekstin ja ääniviittausten perusteella. Molemmat haarat perustuvat <strong>Multimodaaliseen Large Language Model (MMLM)</strong> -pohjaiseen tekstikooderiin, joka ymmärtää visuaalisia käsitteitä sekä kieltä. Kun kuvailet "ukkosmyrskyä vehnäpellon yllä", tämä enkooderi vangitsee sekä visuaalisen rikkauden että siihen sisältyvät ääniodotukset.


Yleiskatsaus SkyReels-V4-arkkitehtuurista, jossa kaksivirtaiset video- ja äänigenerointihaarat jakavat multimodaalisen enkooderin.

Kaksoisvirtaarkkitehtuuri jaetulla multimodaalisella enkooderilla, jossa video- ja äänihaarat syntyvät samanaikaisesti samalla tekstin ymmärryksellä.

Tieto virtaa tekstikehotteesta jaettuun kooderiin, hajotetaan ymmärrykseksi, ja tämä ymmärrys siirtyy molempiin haaroihin. He eivät odota toisiaan, vaan ne ovat saman käsitteellisen syötteen ohjaamia.

Diffuusiomallit ovat ihanteellisia tähän yhteistuotantoon, koska sekä video että ääni hyötyvät vaiheittaisesta hiomisesta. Jokaisessa diffuusiovaiheessa videohaaraa voidaan varovasti ohjata äänihaaran nykyisen arvion mukaan, ja päinvastoin. Se on kuin kaksi muusikkoa hiomassa esitystään reaaliajassa, kumpikin kuuntelee ja mukautuu toiseen.

Yksi käyttöliittymä generointiin, editointiin ja maalaamiseen

Tässä arkkitehtoninen eleganssi muuttuu käytännölliseksi voimaksi. Useimmat videomallit vaativat erilliset koodipolut kuten "luo alusta", "muokkaa tätä videota" ja "laajenna tätä klippiä". SkyReels-V4 yhdistää nämä kaikki yhden mekanismin alle kanavien yhdistämisen avulla.

Temppu on petollisen yksinkertainen. Eri syöttökanavia voidaan täyttää eri sisällöllä tai jättää peitettyinä:

  • Tekstistä videoon -generointi: Kaikki syöttökanavat ovat tyhjiä (maskoituja), joten malli generoi kaiken alusta alkaen.
  • Kuvasta videoon: Aloituskuva upotetaan tiettyihin kanaviin, toiset jäävät tyhjiksi, ja malli tuottaa seuraavan videon.
  • Videon laajennus: Olemassa olevat videokehykset täyttävät joitakin kanavia, toiset ovat peitettyjä, ja malli tuottaa seuraavan sisällön.
  • Maalaus: Mukana on video, jossa on maskatut alueet, näiden alueiden kanavat ovat tyhjiä ja malli täyttää aukot johdonmukaisesti.
  • Visioon perustuva editointi: Sekä muokattava video että halutun tyylin referenssikuva upotetaan ehdollistuksena, ja malli muokkautuu sen mukaisesti.

Perinteiset lähestymistavat vaativat erilaisia malleja tai koulutusmenetelmiä jokaiselle tehtävälle. SkyReels-V4 oppii yhden yhtenäisen diffuusioprosessin. Koulutuksen aikana se näkee satunnaisia yhdistelmiä täytettyjä ja tyhjiä kanavia ja oppii maalaamaan älykkäästi. Tämä yhtenäinen käsittely ulottuu luonnollisesti monimutkaisiin tilanteisiin, joissa useat viittaukset ohjaavat sukupolvea, mikä on ratkaisevan tärkeää elokuvatason tuotannossa.

Elokuvaresoluution laskennallinen toteuttamiskelpoisuus

1080p-videon tuottaminen 32 kuvaa sekunnissa 15 sekunnin ajan on laskennallisesti raskasta. Et voi vain tehdä diffuusioprosessista suurempaa ja toivoa mahdollisia päättelyaikoja. Sen sijaan SkyReels-V4 käyttää kolmivaiheista strategiaa, joka ylläpitää laatua siellä, missä sillä on tärkeintä, mutta vähentää laskentakustannuksia muualla.

...