Dies ist eine Zusammenfassung eines Forschungsberichts namens <a href=" Multi-modal Video-Audio Generation, Inpainting and Editing model</a> in einfacher Sprache. Wenn Ihnen solche Analysen gefallen, treten Sie bei <a href=" oder folgen Sie uns auf <a href=" <h2>Das Problem mit der Videoerzeugung heute</h2> <p>Jahrelang waren Videoerzeugung und Audioerzeugung in getrennten Laboren Fremde. Aktuelle Videomodelle sind wirklich beeindruckend geworden und in der Lage, fotorealistische Szenen mit komplexer Bewegung und reichhaltigen Details zu synthetisieren. Doch sie arbeiten in einem Vakuum, behandeln Audio als optionale Dekoration oder ignorieren es völlig.</p> <p>Das schafft ein konkretes Problem: zeitliche Fehlanpassung. Wenn Sie ein Video von Regen, der auf ein Metalldach prasselt, erzeugen, wurde das Audio (wenn es überhaupt vorhanden ist) unabhängig erstellt. Ein Türknallen im Video synchronisiert sich nicht mit einem Türknallen im Audio. Der Dialog eines Charakters stimmt nicht mit seinen Lippenbewegungen überein. Das Ergebnis fühlt sich unheimlich an, wie ein synchronisierter Film, bei dem immer etwas leicht falsch ist.</p> <p>Das tiefere Problem ist architektonisch. Die meisten multimodalen Modelle behandeln Text als den alleinigen Dirigenten, während alles andere ihm dient. Aber in der realen Filmproduktion informieren sich Video und Audio ständig gegenseitig. Eine Nahaufnahme von Regen geht nicht nur um Pixel, sondern auch um Akustik. Eine belebte Marktszene benötigt Audio, das Ihnen sagt, welche Gespräche wichtig sind. Der Kameramann und der Toningenieur müssen zusammenarbeiten, nicht nacheinander.</p> <h2>Warum Klang mit Vision geboren werden muss, nicht später hinzugefügt</h2> <p>Stellen Sie sich zwei Musiker in einem dunklen Raum vor, die sich nicht sehen können, aber aufmerksam zuhören. Einer spielt Saiteninstrumente, der andere spielt Percussion. Sie teilen sich einen Dirigenten (den Textprompt) und eine Referenzaufnahme (die Szenenbeschreibung). Sie können sich nicht sehen, aber sie hören sich selbst Musik machen und bleiben im Takt. Das ist die architektonische Einsicht von SkyReels-V4.</p> <p>Audio wird hier nicht nach dem Video erzeugt. Stattdessen erzeugen beide Zweige parallel und beeinflussen sich gegenseitig. Der Videozweig lernt, dass eine Audio-Referenz einen Hund bellt, also synthetisiert er Bewegungen, die mit dem Timing und der Energie dieses Bellens übereinstimmen. Der Audiozweig hört, dass das Video einen Hund enthält, also erzeugt er Geräusche, die mit der Anwesenheit dieses Tieres übereinstimmen. Das ist grundlegend anders als andere Ansätze, die Audio als nachträglichen Gedanken an Video anheften.</p> <p>Wenn zwei generative Prozesse dasselbe Eingangsverständnis teilen, können sie orchestriert werden. Sie sind keine unabhängigen Modelle, die nacheinander übergeben werden, sondern zwei Teile eines einheitlichen Gedankens.</p> <h2>Architektur: duale Ströme mit einem gemeinsamen Geist</h2> <p>SkyReels-V4 verwendet einen <strong>Dual-Stream Multimodal Diffusion Transformer (MMDiT)</strong>, bei dem ein Zweig Video synthetisiert und ein anderer Audio erzeugt, während beide aus einer gemeinsamen konzeptionellen Grundlage schöpfen. So passen die Teile zusammen.</p> <p>Der Videozweig synthetisiert Frames in einem gelernten latenten Raum unter Verwendung von Diffusion und akzeptiert reichhaltige visuelle Bedingungen: Textbeschreibungen, Referenzbilder, Masken für Inpainting, sogar vollständige Videoclips. Der Audiozweig erzeugt Klang-Spektren über denselben Diffusionsprozess, der auf Text- und Audio-Referenzen basiert. Beide Zweige sind in einem <strong>Multimodal Large Language Model (MMLM)</strong> basierten Textencoder verankert, der visuelle Konzepte ebenso versteht wie Sprache. Wenn Sie "ein Gewitter über einem Weizenfeld" beschreiben, erfasst dieser Encoder sowohl den visuellen Reichtum als auch die klanglichen Erwartungen, die in dieser Beschreibung eingebettet sind.


Übersicht über die Architektur von SkyReels-V4, die duale Video- und Audioerzeugungszweige zeigt, die einen multimodalen Encoder teilen.

Die Dual-Stream-Architektur mit gemeinsamem multimodalem Encoder, bei der Video- und Audiozweige gleichzeitig erzeugt werden, während sie durch dasselbe Textverständnis bedingt sind.

Informationen fließen vom Textprompt in den gemeinsamen Encoder, werden in Verständnis zerlegt, und dieses Verständnis fließt in beide Zweige. Sie warten nicht aufeinander, sondern werden durch dasselbe konzeptionelle Eingangs gesteuert.

Diffusionsmodelle sind ideal für diese gemeinsame Erzeugung, da sowohl Video als auch Audio von einer schrittweisen Verfeinerung profitieren. Bei jedem Diffusionsschritt kann der Videozweig sanft durch die aktuelle Schätzung des Audiozweigs angestoßen werden und umgekehrt. Es ist wie zwei Musiker, die ihre Darbietung in Echtzeit verfeinern, jeder hört zu und passt sich dem anderen an.

Eine Schnittstelle für Erzeugung, Bearbeitung und Inpainting

Hier wird architektonische Eleganz zu praktischer Kraft. Die meisten Videomodelle erfordern separate Codepfade für "von Grund auf neu generieren", "dieses Video bearbeiten" und "diesen Clip verlängern". SkyReels-V4 vereint all dies unter einem einzigen Mechanismus mit Channel-Konkatenation.

Der Trick ist täuschend einfach. Verschiedene Eingabekanäle können mit unterschiedlichen Inhalten gefüllt oder maskiert werden:

  • Text-zu-Video-Generierung: Alle Eingabekanäle sind leer (maskiert), sodass das Modell alles von Grund auf neu generiert.
  • Bild-zu-Video: Ein Ausgangsbild wird in bestimmte Kanäle eingebettet, andere bleiben leer, und das Modell generiert das folgende Video.
  • Videoerweiterung: Vorhandene Videoframes füllen einige Kanäle, andere sind maskiert, und das Modell generiert, was als Nächstes kommt.
  • Inpainting: Ein Video mit maskierten Regionen wird bereitgestellt, die Kanäle dieser Regionen sind leer, und das Modell füllt die Lücken kohärent.
  • Visionsreferenzierte Bearbeitung: Sowohl ein zu bearbeitendes Video als auch ein Referenzbild, das den gewünschten Stil zeigt, werden als Bedingung eingebettet, und das Modell bearbeitet entsprechend.

Traditionelle Ansätze erfordern unterschiedliche Modelle oder Trainingsverfahren für jede Aufgabe. SkyReels-V4 lernt einen einheitlichen Diffusionsprozess. Während des Trainings sieht es zufällige Kombinationen von gefüllten und leeren Kanälen und lernt, intelligent zu inpainten. Diese einheitliche Behandlung erstreckt sich natürlich auf komplexe Szenarien, in denen mehrere Referenzen die Erzeugung leiten, was für die Produktion auf Kino-Niveau entscheidend ist.

Die Kinoauflösung rechnerisch machbar machen

1080p-Video mit 32 Bildern pro Sekunde für 15 Sekunden zu generieren, ist rechnerisch teuer. Man kann den Diffusionsprozess nicht einfach größer machen und auf machbare Inferenzzeiten hoffen. Stattdessen verwendet SkyReels-V4 eine dreistufige Strategie, die die Qualität dort aufrechterhält, wo sie am wichtigsten ist, während die Rechenkosten an anderer Stelle gesenkt werden.

...