热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
今天我们分享我们的第一项研究工作,探索语言模型的扩散:自回归到扩散的视觉语言模型
我们通过将现有的自回归视觉语言模型适配为并行扩散解码,开发了一种最先进的扩散视觉语言模型,自回归到扩散(A2D)。我们的方法使得在不从头开始训练的情况下,轻松解锁扩散语言模型的速度与质量的权衡,利用现有的预训练自回归模型。

标准的视觉语言模型(VLMs)通过语言对图像和视频进行推理,支持从图像描述到视觉问答的各种应用。
自回归VLMs按顺序生成标记,这限制了并行化并降低了推理吞吐量。扩散解码器作为自回归解码器在VLMs中的一种有前景的替代方案,通过实现并行标记生成来加快推理速度。
我们训练了一种最先进的扩散视觉语言模型 A2D-VL 7B,通过在扩散语言建模任务上微调现有的自回归视觉语言模型,实现并行生成,使用掩蔽扩散框架,通过掩蔽令牌来“加噪”,并通过预测原始令牌来“去噪”。
我们开发了新颖的适应技术,在微调过程中逐渐增加任务难度,以平滑地从顺序解码过渡到并行解码,同时仍然保留基础模型的能力,通过退火块大小和噪声水平。
A2D-VL 在视觉问答方面优于之前的扩散 VLM,同时所需的训练计算量显著减少。我们新颖的适应技术对于保持模型能力至关重要,最终使得将最先进的自回归 VLM 转换为扩散成为可能,且对质量的影响最小。

这项工作是我们实现多模态理解和生成统一的目标的一步,以便构建世界的多模态模拟器。
了解更多:
93.93K
热门
排行
收藏

