熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
今天我們分享我們的第一項研究工作,探索語言模型的擴散:自回歸到擴散的視覺語言模型
我們通過調整現有的自回歸視覺語言模型來開發一個最先進的擴散視覺語言模型,自回歸到擴散(A2D),以實現並行擴散解碼。我們的方法使得在不從頭開始訓練的情況下,輕鬆解鎖擴散語言模型的速度與質量的權衡,通過利用現有的預訓練自回歸模型。

標準的視覺語言模型(VLMs)通過語言對圖像和視頻進行推理,驅動從圖像標註到視覺問答的各種應用。
自回歸VLMs按順序生成標記,這限制了並行化並降低了推理吞吐量。擴散解碼器作為自回歸解碼器在VLMs中的一個有前景的替代方案,通過實現並行標記生成來加快推理速度。
我們訓練了一個最先進的擴散 VLM,A2D-VL 7B,通過對現有的自回歸 VLM 進行微調,來實現平行生成,並在擴散語言建模任務上使用了遮蔽擴散框架,該框架通過遮蔽令牌來「加噪」,並通過預測原始令牌來「去噪」。
我們開發了新穎的適應技術,這些技術在微調過程中逐漸增加任務難度,以平滑地從序列解碼過渡到平行解碼,同時仍然保留基礎模型的能力,通過退火塊大小和噪聲水平。
A2D-VL 在視覺問答方面超越了先前的擴散 VLM,同時所需的訓練計算量顯著減少。我們的新穎適應技術對於保留模型能力至關重要,最終使得最先進的自回歸 VLM 能夠以最小的質量影響轉換為擴散。

這項工作是朝著我們統一多模態理解和生成的目標邁出的一步,以便建立世界的多模態模擬器。
了解更多:
93.93K
熱門
排行
收藏

