Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Představujeme výzkumnou ukázku projektu Self-Flow: škálovatelný přístup pro trénování multimodálních generativních modelů.
Multimodální generování vyžaduje komplexní učení napříč modalitami: obraz, video, audio, text – bez omezení externími modely pro učení reprezentací. Self-Flow to řeší pomocí samo-řízeného porovnání flow, které efektivně škáluje napříč modalitami.
Výsledky:
• Až 2,8x rychlejší konvergence napříč modalitami.
• Zlepšená časová konzistence ve videu
• Ostřejší vykreslování textu a typografie
To je základní výzkum na naší cestě k multimodální vizuální inteligenci.

Self-Flow zlepšuje časovou konzistenci při generování videa.
4B parametrový multimodální model trénovaný na 6M videích.
Čistší typografie a zpracování textu.
Multimodální model s 4B parametry trénovaným na 200M obrázcích.


Společná generace videa a zvuku z jednoho modelu (zapnutý zvuk)
Multimodální model s parametry 4B trénovaný na 2M párech audio-video.
Self-Flow otevírá cestu k modelům světa: kombinuje vizuální škálovatelnost se sémantickou abstrakcí pro plánování a porozumění.
Zde je předpověď akce z modelu s parametry 675M.
77
Top
Hodnocení
Oblíbené
