Ми представляємо попередній огляд дослідження Self-Flow: масштабований підхід до навчання мультимодальних генеративних моделей. Мультимодальна генерація вимагає наскрізного навчання на різних модальнях: зображення, відео, аудіо, текст — без обмежень зовнішніми моделями для навчання представлення. Self-Flow вирішує це за допомогою самоконтрольованого підбору потоків, що ефективно масштабується між різними модальностями. Результати: • До 2,8 разів швидша збіжність між модальностями. • Покращена часова послідовність у відео • Більш чітке відтворення тексту та типографіка Це фундаментальне дослідження на шляху до мультимодального візуального інтелекту.
Self-Flow покращує часову послідовність у генерації відео. Мультимодальна модель з параметрами 4B, навчена на 6M-відео.
Чистіша типографіка та рендеринг тексту. Мультимодальна модель з параметром 4B, навчена на 200M зображеннях.
Спільне відео-аудіо генерування з однієї моделі (звук увімкнено) Мультимодальна модель з параметрами 4B, навчена на 2M парах аудіо-відео.
Self-Flow відкриває шлях до моделей світу: поєднання візуальної масштабованості з семантичною абстракцією для планування та розуміння. Ось прогноз дій за моделлю параметрів 675M.
89