Dit is een samenvatting in eenvoudig Engels van een onderzoeksartikel genaamd <a href=" Multi-modal Video-Audio Generation, Inpainting and Editing model</a>. Als je dit soort analyses leuk vindt, sluit je dan aan bij <a href=" of volg ons op <a href=" <h2>Het probleem met video-generatie vandaag de dag</h2> <p>Jarenlang zijn video-generatie en audio-generatie vreemden geweest in aparte laboratoria. Huidige videomodellen zijn echt indrukwekkend geworden, in staat om fotorealistische scènes te synthetiseren met complexe beweging en rijke details. Toch opereren ze in een vacuüm, waarbij audio wordt behandeld als optionele decoratie of volledig wordt genegeerd.</p> <p>Dit creëert een concreet probleem: temporele misalignering. Wanneer je een video genereert van regen die op een metalen dak valt, is de audio (als die al aanwezig is) onafhankelijk gecreëerd. Een deur die dichtvalt in de video synchroniseert niet met een deur die dichtvalt in de audio. De dialoog van een personage komt niet overeen met hun lipbewegingen. Het resultaat voelt vreemd aan, als een nagesynchroniseerde film waar altijd iets een beetje niet klopt.</p> <p>Het diepere probleem is architectonisch. De meeste multimodale modellen beschouwen tekst als de enige dirigent, waarbij alles andere haar dient. Maar in echte filmproductie informeren video en audio elkaar voortdurend. Een close-up van regen gaat niet alleen over pixels, het gaat over akoestiek. Een drukke marktscène heeft audio nodig die je vertelt welke gesprekken belangrijk zijn. De cameraman en de geluidstechnicus moeten samenwerken, niet sequentieel werken.</p> <h2>Waarom geluid geboren moet worden met visie, en niet later moet worden toegevoegd</h2> <p>Stel je twee muzikanten voor in een verduisterde kamer, die elkaar niet kunnen zien maar aandachtig luisteren. De een speelt snaren, de ander speelt percussie. Ze delen een dirigent (de tekstprompt) en een referentie-opname (de scène beschrijving). Ze kunnen elkaar niet zien, maar ze horen zichzelf muziek maken en blijven op tijd. Dat is de architectonische inzicht van SkyReels-V4.</p> <p>Audio wordt hier niet gegenereerd na video. In plaats daarvan genereren beide takken parallel, waarbij ze elkaar conditioneren. De videotak leert dat een audioreferentie een hond laat blaffen, dus synthetiseert het beweging die overeenkomt met de timing en energie van die blaf. De audiotak hoort dat de video een hond bevat, dus genereert het geluiden die consistent zijn met de aanwezigheid van dat dier. Dit is fundamenteel anders dan andere benaderingen die audio als een bijgedachte aan video vastmaken.</p> <p>Wanneer twee generatieve processen dezelfde inputbegrip delen, kunnen ze worden georkestreerd. Ze zijn geen onafhankelijke modellen die sequentieel worden doorgegeven, ze zijn twee delen van één verenigd idee.</p> <h2>Architectuur: dubbele stromen met een gedeelde geest</h2> <p>SkyReels-V4 gebruikt een <strong>Dual-stream Multimodal Diffusion Transformer (MMDiT)</strong> waarbij de ene tak video synthetiseert en de andere audio genereert, terwijl beide putten uit een gedeelde conceptuele basis. Hier is hoe de stukken in elkaar passen.</p> <p>De videotak synthetiseert frames in een geleerd latente ruimte met behulp van diffusie, waarbij rijke visuele conditionering wordt geaccepteerd: tekstbeschrijvingen, referentiebeelden, maskers voor inpainting, zelfs volledige videoclips. De audiotak genereert geluidspectrogrammen via hetzelfde diffusieproces, geconditioneerd op tekst- en audioreferenties. Beide takken zijn verankerd in een <strong>Multimodal Large Language Model (MMLM)</strong> gebaseerde tekstencoder die visuele concepten net zo goed begrijpt als taal. Wanneer je een "onweersbui boven een tarweveld" beschrijft, vangt deze encoder zowel de visuele rijkdom als de sonische verwachtingen die in die beschrijving zijn ingebed.


Overzicht van de SkyReels-V4 architectuur die dubbele stromen video- en audiogeneratie takken toont die een multimodale encoder delen.

De dubbele-stroomarchitectuur met gedeelde multimodale encoder, waar video- en audiotakken gelijktijdig genereren terwijl ze worden geconditioneerd door hetzelfde tekstbegrip.

Informatie stroomt van de tekstprompt naar de gedeelde encoder, wordt ontleed in begrip, en dat begrip stroomt naar beide takken. Ze wachten niet op elkaar, maar worden georkestreerd door dezelfde conceptuele input.

Diffusiemodellen zijn ideaal voor deze gezamenlijke generatie omdat zowel video als audio profiteren van stap-voor-stap verfijning. Bij elke diffusiefase kan de videotak voorzichtig worden aangestuurd door de huidige schatting van de audiotak, en vice versa. Het is alsof twee muzikanten hun uitvoering in real-time verfijnen, elk luisterend en zich aanpassend aan de ander.

Één interface voor generatie, bewerking en inpainting

Hier wordt architectonische elegantie praktische kracht. De meeste videomodellen vereisen aparte codepaden voor "genereren vanaf nul", "bewerk deze video" en "verleng deze clip." SkyReels-V4 verenigt al deze onder één mechanisme met behulp van kanaalconcatenatie.

De truc is bedrieglijk eenvoudig. Verschillende invoerkanalen kunnen worden gevuld met verschillende inhoud, of leeg worden gelaten:

  • Tekst-naar-video generatie: Alle invoerkanalen zijn leeg (gemaskeerd), zodat het model alles vanaf nul genereert.
  • Afbeelding-naar-video: Een startafbeelding wordt in bepaalde kanalen ingebed, andere blijven leeg, en het model genereert de video die volgt.
  • Video-uitbreiding: Bestaande videoframes vullen enkele kanalen, andere zijn gemaskeerd, en het model genereert wat er daarna komt.
  • Inpainting: Een video met gemaskeerde gebieden wordt geleverd, die gebieden' kanalen zijn leeg, en het model vult de gaten coherent.
  • Visie-referentie bewerking: Zowel een video om te bewerken als een referentieafbeelding die de gewenste stijl toont, worden ingebed als conditionering, en het model bewerkt dienovereenkomstig.

Traditionele benaderingen vereisen verschillende modellen of trainingsprocedures voor elke taak. SkyReels-V4 leert één verenigd diffusieproces. Tijdens de training ziet het willekeurige combinaties van gevulde en lege kanalen en leert het intelligent inpainten. Deze verenigde behandeling strekt zich natuurlijk uit tot complexe scenario's waar meerdere referenties de generatie begeleiden, iets cruciaal voor cinema-niveau productie.

Cinema-resolutie computationeel haalbaar maken

Het genereren van 1080p video met 32 frames per seconde voor 15 seconden is computationeel duur. Je kunt het diffusieproces niet gewoon groter maken en hopen op haalbare inferentietijden. In plaats daarvan gebruikt SkyReels-V4 een driedelige strategie die de kwaliteit behoudt waar het het meest belangrijk is, terwijl de computationele kosten elders worden verlaagd.

...