Oggi condividiamo il nostro primo lavoro di ricerca che esplora la diffusione per i modelli di linguaggio: Modelli di Linguaggio Visione da Autoregressivo a Diffusione. Sviluppiamo un modello di linguaggio visivo a diffusione all'avanguardia, Autoregressivo-a-Diffusione (A2D), adattando un modello di linguaggio visivo autoregressivo esistente per la decodifica di diffusione parallela. Il nostro approccio rende facile sbloccare il compromesso tra velocità e qualità dei modelli di linguaggio a diffusione senza dover addestrare da zero, sfruttando i modelli autoregressivi pre-addestrati esistenti.
I modelli standard di visione-linguaggio (VLM) ragionano su immagini e video attraverso il linguaggio, alimentando una vasta gamma di applicazioni che vanno dalla generazione di didascalie per immagini alla risposta a domande visive. I VLM autoregressivi generano token in modo sequenziale, il che impedisce la parallelizzazione e limita il throughput di inferenza. I decodificatori a diffusione stanno emergendo come un'alternativa promettente ai decodificatori autoregressivi nei VLM, consentendo la generazione parallela di token per un'inferenza più rapida.
Abbiamo addestrato un VLM di diffusione all'avanguardia, A2D-VL 7B, per la generazione parallela, affinando un VLM autoregressivo esistente sul compito di modellazione del linguaggio di diffusione, utilizzando il framework di diffusione mascherata che "disturba" i token mascherandoli e "de-disturba" i token prevedendo i token originali. Sviluppiamo tecniche di adattamento innovative che aumentano gradualmente la difficoltà del compito durante l'affinamento per passare senza problemi dalla decodifica sequenziale a quella parallela, mantenendo comunque le capacità del modello di base, annebbiano sia la dimensione del blocco che il livello di rumore.
A2D-VL supera i precedenti VLM di diffusione nel question-answering visivo, richiedendo un calcolo di addestramento significativamente inferiore. Le nostre tecniche di adattamento innovative sono fondamentali per mantenere le capacità del modello, consentendo finalmente la conversione dei VLM autoregressivi all'avanguardia in diffusione con un impatto minimo sulla qualità.
Questo lavoro è un passo verso il nostro obiettivo di unificare la comprensione e la generazione multimodale al fine di costruire simulatori multimodali del mondo. Scopri di più:
93,93K