今天我们分享我们的第一项研究工作,探索语言模型的扩散:自回归到扩散的视觉语言模型 我们通过将现有的自回归视觉语言模型适配为并行扩散解码,开发了一种最先进的扩散视觉语言模型,自回归到扩散(A2D)。我们的方法使得在不从头开始训练的情况下,轻松解锁扩散语言模型的速度与质量的权衡,利用现有的预训练自回归模型。
标准的视觉语言模型(VLMs)通过语言对图像和视频进行推理,支持从图像描述到视觉问答的各种应用。 自回归VLMs按顺序生成标记,这限制了并行化并降低了推理吞吐量。扩散解码器作为自回归解码器在VLMs中的一种有前景的替代方案,通过实现并行标记生成来加快推理速度。
我们训练了一种最先进的扩散视觉语言模型 A2D-VL 7B,通过在扩散语言建模任务上微调现有的自回归视觉语言模型,实现并行生成,使用掩蔽扩散框架,通过掩蔽令牌来“加噪”,并通过预测原始令牌来“去噪”。 我们开发了新颖的适应技术,在微调过程中逐渐增加任务难度,以平滑地从顺序解码过渡到并行解码,同时仍然保留基础模型的能力,通过退火块大小和噪声水平。
A2D-VL 在视觉问答方面优于之前的扩散 VLM,同时所需的训练计算量显著减少。我们新颖的适应技术对于保持模型能力至关重要,最终使得将最先进的自回归 VLM 转换为扩散成为可能,且对质量的影响最小。
这项工作是我们实现多模态理解和生成统一的目标的一步,以便构建世界的多模态模拟器。 了解更多:
93.93K