Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Prezentujemy przegląd badań nad Self-Flow: skalowalnym podejściem do trenowania wielomodalnych modeli generatywnych.
Generacja wielomodalna wymaga uczenia end-to-end w różnych modalnościach: obraz, wideo, dźwięk, tekst - bez ograniczeń związanych z zewnętrznymi modelami do uczenia reprezentacji. Self-Flow rozwiązuje to za pomocą samonadzorowanego dopasowywania przepływu, które efektywnie skaluje się w różnych modalnościach.
Wyniki:
• Do 2,8x szybsza zbieżność w różnych modalnościach.
• Poprawiona spójność temporalna w wideo
• Wyraźniejsze renderowanie tekstu i typografia
To badania podstawowe na naszej drodze do multimodalnej inteligencji wizualnej.

Self-Flow poprawia spójność temporalną w generowaniu wideo.
Model multi-modalny z 4 miliardami parametrów wytrenowany na 6 milionach wideo.
Czystsza typografia i renderowanie tekstu.
Model multi-modalny z parametrem 4B wytrenowany na 200M obrazach.


Wspólna generacja wideo-audio z jednego modelu (dźwięk włączony)
Model multi-modalny z 4 miliardami parametrów wytrenowany na 2 milionach par audio-wideo.
Self-Flow otwiera drogę do modeli świata: łączy wizualną skalowalność z semantyczną abstrakcją w celu planowania i zrozumienia.
Oto prognoza działania z modelu o 675M parametrach.
76
Najlepsze
Ranking
Ulubione
