Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Apresentamos uma prévia de pesquisa do Self-Flow: uma abordagem escalável para treinar modelos generativos multimodais.
A geração multimodal requer aprendizado de ponta a ponta entre modalidades: imagem, vídeo, áudio, texto - sem ser limitada por modelos externos para aprendizado de representação. O Self-Flow aborda isso com correspondência de fluxo auto-supervisionada que escala de forma eficiente entre modalidades.
Resultados:
• Convergência até 2,8x mais rápida entre modalidades.
• Consistência temporal melhorada em vídeo
• Renderização de texto e tipografia mais nítidas
Esta é uma pesquisa fundamental para o nosso caminho em direção à inteligência visual multimodal.

O Self-Flow melhora a consistência temporal na geração de vídeo.
Modelo multi-modal com 4B de parâmetros treinado em 6M de vídeos.
Tipografia e renderização de texto mais limpas.
Modelo multi-modal com 4B parâmetros treinado em 200M imagens.


Geração conjunta de vídeo e áudio a partir de um único modelo (som ativado)
Modelo multimodal de 4B parâmetros treinado em 2M pares de áudio-vídeo.
Self-Flow abre um caminho para modelos de mundo: combinando escalabilidade visual com abstração semântica para planejamento e compreensão.
Aqui está a previsão de ação de um modelo de 675M de parâmetros.
80
Top
Classificação
Favoritos
