これは<a href=」という研究論文「マルチモーダル映像音声生成、インペインテインションおよび編集モデル」の平易な英語論文の要括です。このような分析がお好きなら、<a href=」に参加するか、<a href=」をフォローしてください。

今日のビデオ生成の問題点

長年にわたり、映像生成と音声生成は別々の研究室で見知らぬものでした。現在のビデオモデルは本当に印象的になり、フォトリアルなシーンを複雑な動きと豊かなディテールで合成できるようになりました。しかし彼らは真空状態で活動し、音声をオプションの装飾として扱ったり、完全に無視したりしています。

これが具体的な問題を生み出します:時間的ずれです。金属屋根に雨が当たる映像を生成する場合、音声(もし存在するなら)は独立して作成されています。動画のドアバタン音は、音声のドアバタン音と同期しません。キャラクターのセリフが口の動きと一致しない。その結果は不気味で、吹き替え映画のように常に少しずつ違和感がある。

より根本的な問題はアーキテクチャにあります。ほとんどのマルチモーダルモデルはテキストを唯一の導体として扱い、それ以外はすべてテキストに仕えています。しかし実際の映画制作では、映像と音声は常に相互に情報を共有します。雨のクローズショットは単なるピクセルではなく、音響にも関わっています。混雑した市場シーンでは、どの会話が重要かを教えてくれる音声が必要です。撮影監督とサウンドエンジニアは順番に作業するのではなく、協力する必要があります。

なぜ音は視覚とともに生まれつきでなければならないのか、後から付け加えるのではなく

い部屋でお互いを見ることはできないけれど、熱心に聴いている二人のミュージシャンを想像してみてください。一人は弦楽器、一人はパーカッションを担当します。彼らは指揮者(テキストプロンプト)と参照録音(シーン説明)を共有しています。お互いを見ることはできませんが、自分たちが音楽を奏でているのを聞き、時間に留まります。それがSkyReels-V4のアーキテクチャ的な洞察です。

ここでは動画の後に音声が生成されません。代わりに、両方の枝は並行して生成し合い、互いに条件付けし合います。映像部門は、音声参照に犬の吠え声が含まれていることを学習し、その吠え声のタイミングとエネルギーに合わせた動きを合成します。音声部門は映像に犬が登場していることを感知し、その動物の存在に一致する音を生成します。これは、音声を後付けでビデオに付け加える他のアプローチとは根本的に異なります。

2つの生成プロセスが同じ入力理解を共有する場合、それらはオーケストレーション可能です。それらは独立したモデルが順番に引き継がれるのではなく、一つの統一された思考の二つの部分です。

アーキテクチャ:共有された心を持つ二重の流れ

SkyReels-V4はデュアルストリームマルチモーダル拡散トランスフォーマー(MMDiT)を使用しており、一方は映像を合成し、もう一方は音声を生成し、両者は共通の概念的基盤に基づいています。これらのピースがどのように組み合わさっているかを説明します。

ビデオ部門は拡散を用いて学習された潜在空間のフレームを合成し、テキストの説明、参照画像、インペインティング用のマスク、さらには完全なビデオクリップまで豊かな視覚的条件を受け入れます。音声部門は、テキストと音声の参照を条件にした同じ拡散プロセスを通じて音声スペクトログラムを生成します。両部門とも、視覚的概念と言語の両方を理解するマルチモーダル大規模言語モデル(MMLM)ベースのテキストエンコーダに基づいています。「小麦畑の上空の雷雨」を表現するとき、このエンコーダーは視覚的な豊かさと、その説明に込められた音響の期待の両方を捉えています。

<a href=" src=" alt="SkyReels-V4アーキテクチャの概要。マルチモーダルエンコーダを共有するデュアルストリームの映像および音声生成ブランチを示す。/></a><br/>マルチ<em>モーダルエンコーダを共有するデュアルストリームの映像および音声生成ブランチを示すSkyReels-V4アーキテクチャの概要。</em></p> <p><em>デュアルストリームアーキテクチャで、共有マルチモーダルエンコーダを持ち、映像と音声のブランチが同時に生成され、同じテキスト理解に基づいています。</em></p> <p>情報はテキストプロンプトから共有エンコーダへ流れ込み、分解されて理解に変わり、その理解が両方の枝に流れ込みます。お互いを待つことはありませんが、同じコンセプトの入力によって構成されています。</p> <p>拡散モデルは、映像と音声の両方が段階的な改良によって恩恵を受けるため、このジョイント生成に理想的です。各拡散ステップで、映像ブランチは音声ブランチの現在の推定値によって優しく調整され、その逆も可能です。まるで二人のミュージシャンがリアルタイムで演奏を磨き、互いに耳を傾けて調整しているかのようだ。</p> <h2>生成、編集、インペインテイント用のインターフェースが一つ</h2> ここで建築の<p>優雅さが実用的な力となります。ほとんどのビデオモデルは「ゼロから生成する」「この動画を編集する」「このクリップを拡張する」という別々のコードパスを必要とします。SkyReels-V4はこれらすべてを<strong>チャネル連結</strong>を用いて単一のメカニズムに統合しています。</p> <p>そのコツは一見シンプルです。異なる入力チャネルは異なるコンテンツで埋められたり、マスキングされたまま</p>にしたりできます。 <ul> <li><strong>テキストからビデオ生成:</strong>すべての入力チャネルは空(マスク)なので、モデルはすべてをゼロから生成します。</li> <li><strong>画像から動画への変換</strong>:開始画像を特定のチャンネルに埋め込み、他の画像は空のままにして、モデルがその後の映像を生成します。</li> <li><strong>ビデオ拡張</strong>:既存の映像フレームが一部のチャンネルを埋め、他のフレームはマスクされ、モデルが次に再生されるものを生成します。</li> <li><strong>インペインティング</strong>:マスクされた領域のビデオを提供し、その領域のチャンネルは空で、モデルが隙間を一貫して埋めます。</li> <li><strong>ビジョン参照編集</strong>:編集する動画と希望するスタイルを示す参照画像の両方が条件付けとして埋め込まれ、モデルはそれに応じて編集します。</li> </ul> <p>従来のアプローチでは、各タスクごとに異なるモデルや訓練手順が必要です。SkyReels-V4は一つの統一拡散プロセスを学習します。訓練中、埋められたチャンネルと空のチャンネルのランダムな組み合わせを見て、賢くインペイントを覚えます。この統一された扱いは、複数のリファレンスが生成を導く複雑なシナリオにも自然に及び、これはシネマレベルの制作にとって極めて重要です。</p> <h2>シネマ解像度の計算実現</h2> <p>1080pの32フレーム/秒で15秒間再生するのは計算コストがかかります。拡散プロセスを単に大きくして、実現可能な推論時間を期待することはできません。代わりに、SkyReels-V4は3段階の戦略を採用し、重要な部分の品質を維持しつつ、他の部分の計算コストを削減します。</p>...