一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

今天我们分享我们的第一项研究工作，探索语言模型的扩散：自回归到扩散的视觉语言模型我们通过将现有的自回归视觉语言模型适配为并行扩散解码，开发了一种最先进的扩散视觉语言模型，自回归到扩散（A2D）。我们的方法使得在不从头开始训练的情况下，轻松解锁扩散语言模型的速度与质量的权衡，利用现有的预训练自回归模型。

标准的视觉语言模型（VLMs）通过语言对图像和视频进行推理，支持从图像描述到视觉问答的各种应用。自回归VLMs按顺序生成标记，这限制了并行化并降低了推理吞吐量。扩散解码器作为自回归解码器在VLMs中的一种有前景的替代方案，通过实现并行标记生成来加快推理速度。

我们训练了一种最先进的扩散视觉语言模型 A2D-VL 7B，通过在扩散语言建模任务上微调现有的自回归视觉语言模型，实现并行生成，使用掩蔽扩散框架，通过掩蔽令牌来“加噪”，并通过预测原始令牌来“去噪”。我们开发了新颖的适应技术，在微调过程中逐渐增加任务难度，以平滑地从顺序解码过渡到并行解码，同时仍然保留基础模型的能力，通过退火块大小和噪声水平。

A2D-VL 在视觉问答方面优于之前的扩散 VLM，同时所需的训练计算量显著减少。我们新颖的适应技术对于保持模型能力至关重要，最终使得将最先进的自回归 VLM 转换为扩散成为可能，且对质量的影响最小。

这项工作是我们实现多模态理解和生成统一的目标的一步，以便构建世界的多模态模拟器。了解更多：

93.93K