Acesta este un rezumat în limba engleză simplă al unei lucrări de cercetare numite <a href=" Multi-modal Video-Audio Generation, Inpainting and Editing</a> model. Dacă îți plac astfel de analize, alătură-te <a href=" sau urmărește-ne pe <a href=" <h2>Problema generării video astăzi</h2> <p>Ani la rând, generarea de video și cea audio au fost necunoscute în laboratoare separate. Modelele video actuale au devenit cu adevărat impresionante, capabile să sintetizeze scene fotorealiste cu mișcare complexă și detalii bogate. Totuși, ele funcționează într-un vid, tratând sunetul ca pe o decorațiune opțională sau ignorându-l complet.</p> <p>Aceasta creează o problemă concretă: nealinierea temporală. Când generezi un videoclip cu ploaia lovind un acoperiș metalic, sunetul (dacă există) a fost creat independent. O trântitură de ușă în videoclip nu se sincronizează cu o trântitură de ușă din audio. Dialogul unui personaj nu se potrivește cu mișcările buzelor. Rezultatul pare straniu, ca într-un film dublat unde ceva este mereu puțin în neregulă.</p> <p>Problema mai profundă este arhitecturală. Majoritatea modelelor multimodale tratează textul ca singur conductor, cu tot restul servindu-l. Dar în producția reală de film, video-ul și audio-ul se informează reciproc constant. Un cadru strâns al ploii nu este doar despre pixeli, ci despre acustică. O piață aglomerată are nevoie de sunet care să-ți spună ce conversații contează. Directorul de imagine și inginerul de sunet trebuie să colaboreze, nu să lucreze secvențial.</p> <h2>De ce sunetul trebuie să se nască cu vedere, nu să fie adăugat mai târziu</h2> <p>Imaginează-ți doi muzicieni într-o cameră întunecată, incapabili să se vadă, dar ascultând cu atenție. Unul cântă la coarde, celălalt la percuție. Ei împart un dirijor (promptul textului) și înregistrarea de referință (descrierea scenei). Nu se pot vedea, dar se aud făcând muzică și rămân în timp. Aceasta este perspectiva arhitecturală a SkyReels-V4.</p> <p>Audio-ul nu este generat după video aici. În schimb, ambele ramuri generează în paralel, condiționându-se reciproc. Ramura video află că o referință audio conține un câine care latră, astfel că sintetizează mișcarea potrivindu-se cu sincronizarea și energia acelui lătrat. Ramura audio aude că videoclipul conține un câine, așa că generează sunete consistente cu prezența acelui animal. Acest lucru este fundamental diferit de alte abordări care adaugă audio pe video ca o idee de ultim moment.</p> <p>Când două procese generative împărtășesc aceeași înțelegere a intrărilor, ele pot fi orchestrate. Nu sunt modele independente transmise secvențial, ci două părți ale unui singur gând unificat.</p> <h2>Arhitectură: fluxuri duale cu o minte comună</h2> <p>SkyReels-V4 folosește un <strong>Dual-stream Multimodal Diffusion Transformer (MMDiT),</strong> unde o ramură sintetizează video, iar alta generează audio, ambele pornind dintr-o fundație conceptuală comună. Iată cum se potrivesc piesele.</p> <p>Ramura video sintetizează cadre într-un spațiu latent învățat folosind difuzie, acceptând condiționare vizuală bogată: descrieri textuale, imagini de referință, măști pentru inpainting, chiar și clipuri video complete. Ramura audio generează spectrograme sonore prin același proces de difuzie, condiționat de text și referințe audio. Ambele ramuri sunt ancorate într-un codificator de text bazat pe <strong>Multimodal Large Language Model (MMLM</strong>) care înțelege atât conceptele vizuale, cât și limbajul. Când descrii o "furtună deasupra unui câmp de grâu", acest encoder surprinde atât bogăția vizuală, cât și așteptările sonore încorporate în acea descriere.
Prezentare generală a arhitecturii SkyReels-V4 care arată ramuri de generare video și audio cu flux dual care împart un encoder multimodal.
Arhitectura dual-stream cu encoder multimodal partajat, unde ramurile video și audio se generează simultan, fiind condiționate de aceeași înțelegere a textului.
Informația curge din promptul textului către encoderul comun, se descompune în înțelegere, iar acea înțelegere curge în ambele ramuri. Nu se așteaptă unul pe celălalt, ci sunt orchestrați de același input conceptual.
Modelele de difuzie sunt ideale pentru această generație comună deoarece atât video, cât și audio beneficiază de rafinare pas cu pas. La fiecare pas de difuzie, ramura video poate fi ușor stimulată de estimarea curentă a ramurii audio și invers. E ca și cum doi muzicieni își rafinează interpretarea în timp real, fiecare ascultând și adaptându-se la celălalt.
O singură interfață pentru generare, editare și pictare
Aici eleganța arhitecturală devine putere practică. Majoritatea modelelor video necesită căi de cod separate pentru "generează de la zero", "editează acest videoclip" și "extinde acest clip". SkyReels-V4 unifică toate acestea sub un singur mecanism folosind concatenarea canalelor.
Trucul este înșelător de simplu. Diferite canale de intrare pot fi umplute cu conținut diferit sau mascate la stânga:
- Generarea text-to-video: Toate canalele de intrare sunt goale (mascate), așa că modelul generează totul de la zero.
- Imagine-la-video: O imagine de pornire este încorporată în anumite canale, altele rămân goale, iar modelul generează videoclipul care urmează.
- Extensie video: Cadrele video existente umplu unele canale, altele sunt mascate, iar modelul generează ceea ce urmează.
- Inpainting: Este oferit un videoclip cu regiuni mascate, canalele acelor regiuni sunt goale, iar modelul umple golurile coerent.
- Editare bazată pe viziune: Atât un videoclip de editat, cât și o imagine de referință care arată stilul dorit sunt integrate ca condiționare, iar modelul editează corespunzător.
Abordările tradiționale necesită modele sau proceduri de antrenament diferite pentru fiecare sarcină. SkyReels-V4 învață un singur proces unificat de difuzie. În timpul antrenamentului, vede combinații aleatorii de canale umplute și goale și învață să picteze inteligent. Acest tratament unificat se extinde natural la scenarii complexe în care mai multe referințe ghidează generarea, ceva crucial pentru producția la nivel de cinematografie.
Făcând rezoluția cinematografică fezabilă din punct de vedere computațional
Generarea video 1080p la 32 de cadre pe secundă timp de 15 secunde este costisitoare din punct de vedere computațional. Nu poți pur și simplu să mărești procesul de difuzie și să speri la timpi de inferență fezabili. În schimb, SkyReels-V4 folosește o strategie în trei etape care menține calitatea acolo unde contează cel mai mult, reducând în același timp costurile computaționale în alte părți.
...