Это резюме исследования под названием <a href=" Multi-modal Video-Audio Generation, Inpainting and Editing model</a> от Plain English Papers. Если вам нравятся такие анализы, присоединяйтесь <a href=" или следите за нами на <a href=" <h2>Проблема с генерацией видео сегодня</h2> <p>На протяжении многих лет генерация видео и аудио были чуждыми друг другу в отдельных лабораториях. Современные видеомодели стали поистине впечатляющими, способными синтезировать фотореалистичные сцены с сложным движением и богатой детализацией. Тем не менее, они работают в вакууме, рассматривая аудио как необязательное украшение или полностью игнорируя его.</p> <p>Это создает конкретную проблему: временное несоответствие. Когда вы генерируете видео с дождем, падающим на металлическую крышу, аудио (если оно вообще присутствует) создается независимо. Удар двери в видео не синхронизируется с ударом двери в аудио. Диалог персонажа не совпадает с движением его губ. Результат кажется странным, как в дублированном фильме, где что-то всегда немного не так.</p> <p>Глубокая проблема заключается в архитектуре. Большинство мультимодальных моделей рассматривают текст как единственного дирижера, а все остальное служит ему. Но в реальном производстве фильмов видео и аудио постоянно информируют друг друга. Крупный план дождя — это не только пиксели, это еще и акустика. Сцена на многолюдном рынке нуждается в аудио, которое подскажет, какие разговоры важны. Оператор и звукоинженер должны сотрудничать, а не работать последовательно.</p> <h2>Почему звук должен рождаться вместе с изображением, а не добавляться позже</h2> <p>Представьте себе двух музыкантов в затемненной комнате, которые не могут видеть друг друга, но внимательно слушают. Один играет на струнных, другой — на ударных. Они делят дирижера (текстовый запрос) и эталонную запись (описание сцены). Они не могут видеть друг друга, но слышат, как создают музыку, и остаются в ритме. Это архитектурное понимание SkyReels-V4.</p> <p>Аудио не генерируется после видео. Вместо этого обе ветви генерируют параллельно, условно друг на друга. Видеоветка понимает, что аудиоссылка содержит лай собаки, поэтому она синтезирует движение, соответствующее времени и энергии этого лая. Аудиоветка слышит, что в видео есть собака, поэтому она генерирует звуки, соответствующие присутствию этого животного. Это принципиально отличается от других подходов, которые прикрепляют аудио к видео как после мысли.</p> <p>Когда два генеративных процесса разделяют одно и то же понимание входных данных, их можно оркестровать. Это не независимые модели, передаваемые последовательно, это две части одной единой мысли.</p> <h2>Архитектура: двойные потоки с общим разумом</h2> <p>SkyReels-V4 использует <strong>Двойной поток Мультимодального Диффузионного Трансформера (MMDiT)</strong>, где одна ветвь синтезирует видео, а другая генерирует аудио, при этом обе опираются на общую концептуальную основу. Вот как элементы сочетаются.</p> <p>Видеоветка синтезирует кадры в изученном латентном пространстве с использованием диффузии, принимая богатую визуальную условность: текстовые описания, эталонные изображения, маски для инпейнтинга, даже полные видеоклипы. Аудиоветка генерирует звуковые спектрограммы через тот же процесс диффузии, основываясь на текстовых и аудиоссылках. Обе ветви основаны на <strong>Мультимодальной Большой Языковой Модели (MMLM)</strong>, основанной на текстовом кодировщике, который понимает визуальные концепции так же, как и язык. Когда вы описываете "гроза над пшеничным полем", этот кодировщик захватывает как визуальное богатство, так и звуковые ожидания, заложенные в этом описании.


Обзор архитектуры SkyReels-V4, показывающий двойные потоки генерации видео и аудио, которые делят мультимодальный кодировщик.

Двойная потоковая архитектура с общим мультимодальным кодировщиком, где ветви видео и аудио генерируют одновременно, основываясь на одном и том же понимании текста.

Информация поступает из текстового запроса в общий кодировщик, декомпозируется в понимание, и это понимание поступает в обе ветви. Они не ждут друг друга, но их оркеструет один и тот же концептуальный ввод.

Модели диффузии идеально подходят для этой совместной генерации, потому что как видео, так и аудио выигрывают от пошагового уточнения. На каждом шаге диффузии видеоветка может быть осторожно подталкиваема текущей оценкой аудиоветки и наоборот. Это похоже на двух музыкантов, уточняющих свое исполнение в реальном времени, каждый слушая и подстраиваясь к другому.

Единый интерфейс для генерации, редактирования и инпейнтинга

Вот где архитектурная элегантность становится практической силой. Большинство видеомоделей требуют отдельных кодовых путей для "генерации с нуля", "редактирования этого видео" и "продления этого клипа". SkyReels-V4 объединяет все это под одним механизмом с использованием конкатенации каналов.

Трюк обманчиво прост. Разные входные каналы могут быть заполнены разным содержимым или оставлены замаскированными:

  • Генерация текста в видео: Все входные каналы пусты (замаскированы), поэтому модель генерирует все с нуля.
  • Изображение в видео: Начальное изображение встраивается в определенные каналы, другие остаются пустыми, и модель генерирует следующее видео.
  • Продление видео: Существующие видеокадры заполняют некоторые каналы, другие замаскированы, и модель генерирует то, что будет дальше.
  • Инпейнтинг: Предоставляется видео с замаскированными регионами, каналы этих регионов пусты, и модель заполняет пробелы согласованно.
  • Редактирование с учетом видения: И видео для редактирования, и эталонное изображение, показывающее желаемый стиль, встраиваются как условие, и модель редактирует соответственно.

Традиционные подходы требуют различных моделей или процедур обучения для каждой задачи. SkyReels-V4 изучает один единый процесс диффузии. Во время обучения он видит случайные комбинации заполненных и пустых каналов и учится инпейнтить разумно. Этот единый подход естественно распространяется на сложные сценарии, где несколько ссылок направляют генерацию, что имеет решающее значение для производства на уровне кино.

Сделать разрешение кинофильма вычислительно осуществимым

Генерация видео 1080p при 32 кадрах в секунду на протяжении 15 секунд требует значительных вычислительных ресурсов. Вы не можете просто увеличить процесс диффузии и надеяться на приемлемое время вывода. Вместо этого SkyReels-V4 использует трехступенчатую стратегию, которая сохраняет качество там, где это наиболее важно, одновременно снижая вычислительные затраты в других местах.

...