Prezentujemy przegląd badań nad Self-Flow: skalowalnym podejściem do trenowania wielomodalnych modeli generatywnych. Generacja wielomodalna wymaga uczenia end-to-end w różnych modalnościach: obraz, wideo, dźwięk, tekst - bez ograniczeń związanych z zewnętrznymi modelami do uczenia reprezentacji. Self-Flow rozwiązuje to za pomocą samonadzorowanego dopasowywania przepływu, które efektywnie skaluje się w różnych modalnościach. Wyniki: • Do 2,8x szybsza zbieżność w różnych modalnościach. • Poprawiona spójność temporalna w wideo • Wyraźniejsze renderowanie tekstu i typografia To badania podstawowe na naszej drodze do multimodalnej inteligencji wizualnej.
Self-Flow poprawia spójność temporalną w generowaniu wideo. Model multi-modalny z 4 miliardami parametrów wytrenowany na 6 milionach wideo.
Czystsza typografia i renderowanie tekstu. Model multi-modalny z parametrem 4B wytrenowany na 200M obrazach.
Wspólna generacja wideo-audio z jednego modelu (dźwięk włączony) Model multi-modalny z 4 miliardami parametrów wytrenowany na 2 milionach par audio-wideo.
Self-Flow otwiera drogę do modeli świata: łączy wizualną skalowalność z semantyczną abstrakcją w celu planowania i zrozumienia. Oto prognoza działania z modelu o 675M parametrach.
76