Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Prezentujemy przegląd badań nad Self-Flow: skalowalnym podejściem do trenowania wielomodalnych modeli generatywnych. Generacja wielomodalna wymaga uczenia end-to-end w różnych modalnościach: obraz, wideo, dźwięk, tekst - bez ograniczeń związanych z zewnętrznymi modelami do uczenia reprezentacji. Self-Flow rozwiązuje to za pomocą samonadzorowanego dopasowywania przepływu, które efektywnie skaluje się w różnych modalnościach. Wyniki: • Do 2,8x szybsza zbieżność w różnych modalnościach. • Poprawiona spójność temporalna w wideo • Wyraźniejsze renderowanie tekstu i typografia To badania podstawowe na naszej drodze do multimodalnej inteligencji wizualnej.

Self-Flow poprawia spójność temporalną w generowaniu wideo. Model multi-modalny z 4 miliardami parametrów wytrenowany na 6 milionach wideo.

Czystsza typografia i renderowanie tekstu. Model multi-modalny z parametrem 4B wytrenowany na 200M obrazach.

Wspólna generacja wideo-audio z jednego modelu (dźwięk włączony) Model multi-modalny z 4 miliardami parametrów wytrenowany na 2 milionach par audio-wideo.

Self-Flow otwiera drogę do modeli świata: łączy wizualną skalowalność z semantyczną abstrakcją w celu planowania i zrozumienia. Oto prognoza działania z modelu o 675M parametrach.

76

Najlepsze

Ranking

Ulubione