Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
We presenteren een onderzoeksvooruitzicht van Self-Flow: een schaalbare benadering voor het trainen van multimodale generatieve modellen.
Multimodale generatie vereist end-to-end leren over modaliteiten: afbeelding, video, audio, tekst - zonder beperkt te worden door externe modellen voor representatieleren. Self-Flow pakt dit aan met zelf-gecontroleerde flow-matching die efficiënt schaalt over modaliteiten.
Resultaten:
• Tot 2,8x snellere convergentie over modaliteiten.
• Verbeterde temporele consistentie in video
• Scherper tekstrendering en typografie
Dit is fundamenteel onderzoek voor onze weg naar multimodale visuele intelligentie.

Self-Flow verbetert de temporele consistentie in video-generatie.
4B parameter multi-modale model getraind op 6M video's.
Nettere typografie en tekstweergave.
4B parameter multi-modale model getraind op 200M afbeeldingen.


Gezamenlijke video-audio generatie vanuit een enkel model (geluid aan)
4B parameter multi-modale model getraind op 2M audio-video paren.
Self-Flow opent een pad naar wereldmodellen: het combineren van visuele schaalbaarheid met semantische abstractie voor planning en begrip.
Hier is actievoorspelling van een model met 675M parameters.
74
Boven
Positie
Favorieten
