Мы представляем предварительный обзор исследования Self-Flow: масштабируемый подход к обучению многомодальных генеративных моделей. Многомодальная генерация требует обучения от начала до конца через модальности: изображение, видео, аудио, текст - без ограничений внешними моделями для обучения представлениям. Self-Flow решает эту задачу с помощью самонаправленного сопоставления потоков, которое эффективно масштабируется через модальности. Результаты: • Ускорение сходимости до 2,8x через модальности. • Улучшенная временная согласованность в видео • Четче рендеринг текста и типографика Это основополагающее исследование для нашего пути к многомодальному визуальному интеллекту.
Self-Flow улучшает временную согласованность в генерации видео. Мультимодальная модель с 4 миллиардами параметров, обученная на 6 миллионах видео.
Чище типографика и рендеринг текста. Многофункциональная модель с параметрами 4B, обученная на 200M изображениях.
Совместная генерация видео и аудио из одной модели (звук включен) Мульти-модальная модель с 4B параметрами, обученная на 2M парах аудио-видео.
Self-Flow открывает путь к мировым моделям: сочетая визуальную масштабируемость с семантической абстракцией для планирования и понимания. Вот предсказание действий от модели с 675M параметрами.
84