Nous présentons un aperçu de recherche de Self-Flow : une approche évolutive pour l'entraînement de modèles génératifs multimodaux. La génération multimodale nécessite un apprentissage de bout en bout à travers les modalités : image, vidéo, audio, texte - sans être limité par des modèles externes pour l'apprentissage de la représentation. Self-Flow aborde cela avec un appariement de flux auto-supervisé qui évolue efficacement à travers les modalités. Résultats : • Convergence jusqu'à 2,8 fois plus rapide à travers les modalités. • Amélioration de la cohérence temporelle dans la vidéo • Rendu de texte et typographie plus nets Ceci est une recherche fondamentale pour notre chemin vers l'intelligence visuelle multimodale.
Self-Flow améliore la cohérence temporelle dans la génération vidéo. Modèle multi-modal de 4 milliards de paramètres entraîné sur 6 millions de vidéos.
Une typographie et un rendu de texte plus clairs. Modèle multi-modal avec 4B paramètres entraîné sur 200 millions d'images.
Génération vidéo-audio conjointe à partir d'un seul modèle (son activé) Modèle multi-modal de 4 milliards de paramètres entraîné sur 2 millions de paires audio-vidéo.
Self-Flow ouvre un chemin vers des modèles mondiaux : combinant la scalabilité visuelle avec l'abstraction sémantique pour la planification et la compréhension. Voici la prédiction d'action d'un modèle de 675 millions de paramètres.
87