Apresentamos uma prévia de pesquisa do Self-Flow: uma abordagem escalável para treinar modelos generativos multimodais. A geração multimodal requer aprendizado de ponta a ponta entre modalidades: imagem, vídeo, áudio, texto - sem ser limitada por modelos externos para aprendizado de representação. O Self-Flow aborda isso com correspondência de fluxo auto-supervisionada que escala de forma eficiente entre modalidades. Resultados: • Convergência até 2,8x mais rápida entre modalidades. • Consistência temporal melhorada em vídeo • Renderização de texto e tipografia mais nítidas Esta é uma pesquisa fundamental para o nosso caminho em direção à inteligência visual multimodal.
O Self-Flow melhora a consistência temporal na geração de vídeo. Modelo multi-modal com 4B de parâmetros treinado em 6M de vídeos.
Tipografia e renderização de texto mais limpas. Modelo multi-modal com 4B parâmetros treinado em 200M imagens.
Geração conjunta de vídeo e áudio a partir de um único modelo (som ativado) Modelo multimodal de 4B parâmetros treinado em 2M pares de áudio-vídeo.
Self-Flow abre um caminho para modelos de mundo: combinando escalabilidade visual com abstração semântica para planejamento e compreensão. Aqui está a previsão de ação de um modelo de 675M de parâmetros.
80