Prezentăm o previzualizare a cercetării Self-Flow: o abordare scalabilă pentru antrenarea modelelor generative multimodale. Generarea multimodală necesită învățare end-to-end între modalități: imagine, video, audio, text - fără a fi limitată de modele externe pentru învățarea reprezentărilor. Self-Flow abordează acest lucru prin potrivirea fluxului auto-supravegheată, care scalează eficient între modalități. Rezultate: • Convergență de până la 2,8 ori mai rapidă între modalități. • Îmbunătățire a consistenței temporale în video • Redare textului mai ascuțită și tipografie Aceasta este o cercetare fundamentală pentru drumul nostru către inteligența vizuală multimodală.
Self-Flow îmbunătățește consistența temporală în generarea de videoclipuri. Modelul multi-modal cu parametri 4B antrenat pe 6M videoclipuri.
Tipografie și redare a textului mai curate. Modelul multimodal cu parametri 4B antrenat pe imagini de 200M.
Generare comună video-audio dintr-un singur model (sunet pornit) Modelul multimodal cu parametri 4B antrenat pe perechi audio-video de 2M.
Self-Flow deschide o cale către modele de lume: combinând scalabilitatea vizuală cu abstracția semantică pentru planificare și înțelegere. Iată predicția acțiunii dintr-un model de parametri 675M.
82