Ini adalah ringkasan Plain English Papers dari makalah penelitian yang disebut <a href=" Multi-modal Video-Audio Generation, Inpainting dan Editing model</a>. Jika Anda menyukai analisis semacam ini, bergabunglah dengan <a href=" atau ikuti kami di <a href=" <h2>Masalah dengan pembuatan video saat ini</h2> <p>Selama bertahun-tahun, pembuatan video dan pembuatan audio telah menjadi orang asing di laboratorium terpisah. Model video saat ini telah menjadi benar-benar mengesankan, mampu mensintesis pemandangan fotorealistik dengan gerakan kompleks dan detail yang kaya. Namun mereka beroperasi dalam ruang hampa, memperlakukan audio sebagai dekorasi opsional atau mengabaikannya sepenuhnya.</p> <p>Ini menciptakan masalah konkret: ketidaksejajaran temporal. Saat Anda membuat video hujan yang menghantam atap logam, audio (jika ada) dibuat secara independen. Bantingan pintu dalam video tidak disinkronkan dengan bantingan pintu dalam audio. Dialog karakter tidak sesuai dengan gerakan bibir mereka. Hasilnya terasa luar biasa, seperti film yang di-dubbing di mana ada sesuatu yang selalu sedikit aneh.</p> <p>Masalah yang lebih dalam adalah arsitektur. Sebagian besar model multimoda memperlakukan teks sebagai satu-satunya konduktor, dengan segala sesuatu yang lain menyajikannya. Tetapi dalam produksi film nyata, video dan audio saling menginformasikan secara konstan. Bidikan hujan yang ketat bukan hanya tentang piksel, ini tentang akustik. Pemandangan pasar yang ramai membutuhkan audio yang memberi tahu Anda percakapan mana yang penting. Sinematografer dan insinyur suara perlu berkolaborasi, bukan bekerja secara berurutan.</p> <h2>Mengapa suara perlu dilahirkan dengan penglihatan, tidak ditambahkan nanti</h2> <p>Bayangkan dua musisi di ruangan yang gelap, tidak dapat melihat satu sama lain tetapi mendengarkan dengan seksama. Yang satu memainkan senar, yang satu memainkan perkusi. Mereka berbagi konduktor (prompt teks) dan rekaman referensi (deskripsi adegan). Mereka tidak dapat melihat satu sama lain, tetapi mereka mendengar diri mereka membuat musik dan mereka tetap tepat waktu. Itulah wawasan arsitektur SkyReels-V4.</p> <p>Audio tidak dihasilkan setelah video di sini. Sebaliknya, kedua cabang menghasilkan secara paralel, saling mengkondisikan. Cabang video mengetahui bahwa referensi audio berisi gonggongan anjing, sehingga mensintesis gerakan yang cocok dengan waktu dan energi gonggongan itu. Cabang audio mendengar bahwa video tersebut berisi seekor anjing, sehingga menghasilkan suara yang konsisten dengan kehadiran hewan itu. Ini pada dasarnya berbeda dari pendekatan lain yang memasukkan audio ke video sebagai renungan.</p> <p>Ketika dua proses generatif berbagi pemahaman input yang sama, mereka dapat diorkestrasi. Mereka bukan model independen yang diserahkan secara berurutan, mereka adalah dua bagian dari satu pemikiran terpadu.</p> <h2>Arsitektur: aliran ganda dengan pikiran bersama</h2> <p>SkyReels-V4 menggunakan <strong>Dual-stream Multimodal Diffusion Transformer (MMDiT)</strong> di mana satu cabang mensintesis video dan yang lain menghasilkan audio, sementara keduanya diambil dari fondasi konseptual bersama. Inilah cara potongan-potongan itu saling cocok.</p> <p>Cabang video mensintesis bingkai dalam ruang laten yang dipelajari menggunakan difusi, menerima pengkondisian visual yang kaya: deskripsi teks, gambar referensi, topeng untuk melukis, bahkan klip video lengkap. Cabang audio menghasilkan spektrogram suara melalui proses difusi yang sama, dikondisikan pada referensi teks dan audio. Kedua cabang didasarkan pada encoder teks berbasis <strong>Multimodal Large Language Model (MMLM)</strong> yang memahami konsep visual serta bahasa. Ketika Anda menggambarkan "badai petir di atas ladang gandum", encoder ini menangkap kekayaan visual dan ekspektasi sonik yang tertanam dalam deskripsi itu.
Ikhtisar arsitektur SkyReels-V4 yang menunjukkan cabang pembuatan video dan audio aliran ganda yang berbagi encoder multimodal.
Arsitektur dual-stream dengan encoder multimodal bersama, di mana cabang video dan audio dihasilkan secara bersamaan sambil dikondisikan oleh pemahaman teks yang sama.
Informasi mengalir dari prompt teks ke encoder bersama, terurai menjadi pemahaman, dan pemahaman itu mengalir ke kedua cabang. Mereka tidak saling menunggu, tetapi mereka diatur oleh masukan konseptual yang sama.
Model difusi sangat ideal untuk generasi bersama ini karena video dan audio mendapat manfaat dari penyempurnaan langkah demi langkah. Pada setiap langkah difusi, cabang video dapat didorong dengan lembut oleh perkiraan cabang audio saat ini, dan sebaliknya. Ini seperti dua musisi yang menyempurnakan penampilan mereka secara real time, masing-masing mendengarkan dan menyesuaikan diri dengan yang lain.
Satu antarmuka untuk pembuatan, pengeditan, dan pengecatan
Disinilah keanggunan arsitektur menjadi kekuatan praktis. Sebagian besar model video memerlukan jalur kode terpisah untuk "hasilkan dari awal", "edit video ini", dan "perluas klip ini". SkyReels-V4 menyatukan semua ini di bawah satu mekanisme menggunakan penggabungan saluran.
Triknya sangat sederhana. Saluran input yang berbeda dapat diisi dengan konten yang berbeda, atau dibiarkan bertopeng:
- Pembuatan teks-ke-video: Semua saluran input kosong (dimasker), sehingga model menghasilkan semuanya dari awal.
- Gambar-ke-video: Gambar awal disematkan ke saluran tertentu, yang lain tetap kosong, dan model menghasilkan video yang mengikuti.
- Ekstensi video: Bingkai video yang ada mengisi beberapa saluran, yang lain disembunyikan, dan model menghasilkan apa yang akan terjadi selanjutnya.
- Inpainting: Video dengan bidang bertopeng disediakan, saluran wilayah tersebut kosong, dan model mengisi celah secara koheren.
- Pengeditan yang direferensikan visi: Baik video untuk diedit maupun gambar referensi yang menunjukkan gaya yang diinginkan disematkan sebagai pengkondisian, dan model mengedit sesuai dengan itu.
Pendekatan tradisional membutuhkan model atau prosedur pelatihan yang berbeda untuk setiap tugas. SkyReels-V4 mempelajari satu proses difusi terpadu. Selama pelatihan, ia melihat kombinasi acak dari saluran yang diisi dan kosong dan belajar melukis dengan cerdas. Perlakuan terpadu ini meluas secara alami ke skenario kompleks di mana banyak referensi memandu generasi, sesuatu yang penting untuk produksi tingkat bioskop.
Membuat resolusi bioskop layak secara komputasi
Menghasilkan video 1080p pada 32 frame per detik selama 15 detik mahal secara komputasi. Anda tidak bisa begitu saja membuat proses difusi lebih besar dan mengharapkan waktu inferensi yang layak. Sebagai gantinya, SkyReels-V4 menggunakan strategi tiga tahap yang menjaga kualitas di tempat yang paling penting sekaligus mengurangi biaya komputasi di tempat lain.
...