Diffusione per tutto! Condividiamo una ricetta per partire da un VLM autoregressivo pre-addestrato e, con pochissimo calcolo di addestramento e alcuni bei trucchi di annealing, trasformarlo in un VLM di diffusione SOTA. La ricerca sulla diffusione per il linguaggio sta progredendo molto rapidamente e, a mio avviso, offre un percorso promettente per unificare le modalità, proprio come i modelli autoregressivi 'omni'. Lavoro straordinario guidato da @mariannearr @ServerProcessor durante l'estate.