Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nous présentons un aperçu de recherche de Self-Flow : une approche évolutive pour l'entraînement de modèles génératifs multimodaux.
La génération multimodale nécessite un apprentissage de bout en bout à travers les modalités : image, vidéo, audio, texte - sans être limité par des modèles externes pour l'apprentissage de la représentation. Self-Flow aborde cela avec un appariement de flux auto-supervisé qui évolue efficacement à travers les modalités.
Résultats :
• Convergence jusqu'à 2,8 fois plus rapide à travers les modalités.
• Amélioration de la cohérence temporelle dans la vidéo
• Rendu de texte et typographie plus nets
Ceci est une recherche fondamentale pour notre chemin vers l'intelligence visuelle multimodale.

Self-Flow améliore la cohérence temporelle dans la génération vidéo.
Modèle multi-modal de 4 milliards de paramètres entraîné sur 6 millions de vidéos.
Une typographie et un rendu de texte plus clairs.
Modèle multi-modal avec 4B paramètres entraîné sur 200 millions d'images.


Génération vidéo-audio conjointe à partir d'un seul modèle (son activé)
Modèle multi-modal de 4 milliards de paramètres entraîné sur 2 millions de paires audio-vidéo.
Self-Flow ouvre un chemin vers des modèles mondiaux : combinant la scalabilité visuelle avec l'abstraction sémantique pour la planification et la compréhension.
Voici la prédiction d'action d'un modèle de 675 millions de paramètres.
87
Meilleurs
Classement
Favoris
