Wir präsentieren eine Forschungsübersicht zu Self-Flow: einem skalierbaren Ansatz zum Training multimodaler generativer Modelle. Die multimodale Generierung erfordert ein End-to-End-Lernen über die Modalitäten hinweg: Bild, Video, Audio, Text - ohne durch externe Modelle für das Repräsentationslernen eingeschränkt zu sein. Self-Flow adressiert dies mit selbstüberwachtem Flussabgleich, der effizient über die Modalitäten skaliert. Ergebnisse: • Bis zu 2,8x schnellere Konvergenz über die Modalitäten. • Verbesserte zeitliche Konsistenz im Video • Schärfere Textdarstellung und Typografie Dies ist grundlegende Forschung für unseren Weg zur multimodalen visuellen Intelligenz.
Self-Flow verbessert die zeitliche Konsistenz bei der Videoerzeugung. 4B-Parameter-Multi-Modal-Modell, das auf 6M Videos trainiert wurde.
Sauberere Typografie und Textdarstellung. 4B-Parameter-Multi-Modal-Modell, das auf 200 Millionen Bildern trainiert wurde.
Gemeinsame Video-Audio-Generierung aus einem einzigen Modell (Ton an) 4B-Parameter-Multi-Modal-Modell, das auf 2M Audio-Video-Paaren trainiert wurde.
Self-Flow eröffnet einen Weg zu Weltmodellen: Kombination von visueller Skalierbarkeit mit semantischer Abstraktion für Planung und Verständnis. Hier ist die Aktionsvorhersage eines Modells mit 675 Millionen Parametern.
70