Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Prezentăm o previzualizare a cercetării Self-Flow: o abordare scalabilă pentru antrenarea modelelor generative multimodale.
Generarea multimodală necesită învățare end-to-end între modalități: imagine, video, audio, text - fără a fi limitată de modele externe pentru învățarea reprezentărilor. Self-Flow abordează acest lucru prin potrivirea fluxului auto-supravegheată, care scalează eficient între modalități.
Rezultate:
• Convergență de până la 2,8 ori mai rapidă între modalități.
• Îmbunătățire a consistenței temporale în video
• Redare textului mai ascuțită și tipografie
Aceasta este o cercetare fundamentală pentru drumul nostru către inteligența vizuală multimodală.

Self-Flow îmbunătățește consistența temporală în generarea de videoclipuri.
Modelul multi-modal cu parametri 4B antrenat pe 6M videoclipuri.
Tipografie și redare a textului mai curate.
Modelul multimodal cu parametri 4B antrenat pe imagini de 200M.


Generare comună video-audio dintr-un singur model (sunet pornit)
Modelul multimodal cu parametri 4B antrenat pe perechi audio-video de 2M.
Self-Flow deschide o cale către modele de lume: combinând scalabilitatea vizuală cu abstracția semantică pentru planificare și înțelegere.
Iată predicția acțiunii dintr-un model de parametri 675M.
82
Limită superioară
Clasament
Favorite
