Dnes se s vámi podělíme o naši první výzkumnou práci, která zkoumá difúzi jazykových modelů: Jazykové modely autoregresního a difúzního vidění Vyvíjíme nejmodernější model difúzního jazyka vidění, Autoregressive-to-Diffusion (A2D), přizpůsobením existujícího modelu autoregresního jazyka vidění pro paralelní difúzní dekódování. Náš přístup usnadňuje hledání kompromisu mezi rychlostí a kvalitou difúzních jazykových modelů bez trénování od nuly, a to využitím stávajících předem natrénovaných autoregresních modelů.
Standardní modely jazyka vidění (VLM) uvažují o obrázcích a videích prostřednictvím jazyka a pohánějí širokou škálu aplikací od titulků obrázků až po vizuální odpovídání na otázky. Autoregresní VLM generují tokeny postupně, což zabraňuje paralelizaci a omezuje propustnost odvozování. Difúzní dekodéry se ukazují jako slibná alternativa k autoregresním dekodérům ve VLM tím, že umožňují paralelní generování tokenů pro rychlejší odvozování.
Trénovali jsme nejmodernější difúzní VLM, A2D-VL 7B pro paralelní generaci vyladěním existujícího autoregresního VLM na úloze modelování difúzního jazyka pomocí maskovaného difúzního rámce, který "šumí" tokeny jejich maskováním a "odstraňuje šumy" tokeny predikcí původních tokenů. Vyvíjíme nové adaptační techniky, které postupně zvyšují obtížnost úkolu během dolaďování tak, aby plynule přecházely ze sekvenčního na paralelní dekódování při zachování schopností základního modelu, a to jak žíháním velikosti bloku, tak úrovně šumu.
A2D-VL překonává předchozí difúzní VLM ve vizuálním odpovídání na otázky a zároveň vyžaduje výrazně méně trénovacích výpočtů. Naše nové adaptační techniky jsou rozhodující pro zachování schopností modelu a konečně umožňují konverzi nejmodernějších autoregresních VLM na difúzi s minimálním dopadem na kvalitu.
Tato práce je krokem k našemu cíli sjednotit multimodální porozumění a generování za účelem vytvoření multimodálních simulátorů světa. Víc se uč:
93,92K