Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wir präsentieren eine Forschungsübersicht zu Self-Flow: einem skalierbaren Ansatz zum Training multimodaler generativer Modelle.
Die multimodale Generierung erfordert ein End-to-End-Lernen über die Modalitäten hinweg: Bild, Video, Audio, Text - ohne durch externe Modelle für das Repräsentationslernen eingeschränkt zu sein. Self-Flow adressiert dies mit selbstüberwachtem Flussabgleich, der effizient über die Modalitäten skaliert.
Ergebnisse:
• Bis zu 2,8x schnellere Konvergenz über die Modalitäten.
• Verbesserte zeitliche Konsistenz im Video
• Schärfere Textdarstellung und Typografie
Dies ist grundlegende Forschung für unseren Weg zur multimodalen visuellen Intelligenz.

Self-Flow verbessert die zeitliche Konsistenz bei der Videoerzeugung.
4B-Parameter-Multi-Modal-Modell, das auf 6M Videos trainiert wurde.
Sauberere Typografie und Textdarstellung.
4B-Parameter-Multi-Modal-Modell, das auf 200 Millionen Bildern trainiert wurde.


Gemeinsame Video-Audio-Generierung aus einem einzigen Modell (Ton an)
4B-Parameter-Multi-Modal-Modell, das auf 2M Audio-Video-Paaren trainiert wurde.
Self-Flow eröffnet einen Weg zu Weltmodellen: Kombination von visueller Skalierbarkeit mit semantischer Abstraktion für Planung und Verständnis.
Hier ist die Aktionsvorhersage eines Modells mit 675 Millionen Parametern.
70
Top
Ranking
Favoriten
