Presentiamo un'anteprima della ricerca di Self-Flow: un approccio scalabile per l'addestramento di modelli generativi multi-modali. La generazione multi-modale richiede un apprendimento end-to-end attraverso le modalità: immagine, video, audio, testo - senza essere limitati da modelli esterni per l'apprendimento della rappresentazione. Self-Flow affronta questo con un abbinamento di flusso auto-supervisionato che scala in modo efficiente attraverso le modalità. Risultati: • Fino a 2,8 volte più veloce convergenza tra le modalità. • Maggiore coerenza temporale nel video • Rendering del testo e tipografia più nitidi Questa è una ricerca fondamentale per il nostro percorso verso l'intelligenza visiva multimodale.
Self-Flow migliora la coerenza temporale nella generazione video. Modello multi-modale da 4 miliardi di parametri addestrato su 6 milioni di video.
Tipografia e rendering del testo più puliti. Modello multi-modale con parametro 4B addestrato su 200 milioni di immagini.
Generazione video-audio congiunta da un singolo modello (audio attivo) Modello multi-modale con 4 miliardi di parametri addestrato su 2 milioni di coppie audio-video.
Self-Flow apre un percorso verso modelli mondiali: combinando scalabilità visiva con astrazione semantica per pianificazione e comprensione. Ecco la previsione delle azioni da un modello da 675 milioni di parametri.
77