Presentamos una vista previa de investigación de Self-Flow: un enfoque escalable para entrenar modelos generativos multimodales. La generación multimodal requiere un aprendizaje de extremo a extremo entre modalidades: imagen, vídeo, audio, texto, sin estar limitada por modelos externos para el aprendizaje de representaciones. El autoflujo aborda esto mediante la adaptación de flujo auto-supervisada que escala eficientemente entre modalidades. Resultados: • Convergencia hasta 2,8 veces más rápida entre modalidades. • Mayor consistencia temporal en vídeo • Renderizado de texto más nítido y tipografía Esta es una investigación fundamental para nuestro camino hacia la inteligencia visual multimodal.
El auto-flujo mejora la consistencia temporal en la generación de vídeo. Modelo multimodal de 4B parámetros entrenado con vídeos de 6M.
Tipografía y renderizado de texto más limpios. Modelo multimodal de 4B parámetros entrenado con imágenes de 200M.
Generación conjunta de vídeo-audio a partir de un solo modelo (sonido encendido) Modelo multimodal de 4B parámetros entrenado con pares audio-vídeo de 2M.
El Self-Flow abre un camino hacia los modelos de mundo: combinar escalabilidad visual con abstracción semántica para la planificación y la comprensión. Aquí tienes la predicción de acción a partir de un modelo de parámetros 675M.
155