Yann LeCun 介绍了 VL-JEPA:一种高效的非生成性替代方案,优于传统的多模态 LLM,在速度和准确性上都表现出色。 * 非生成性与实时性:首个基于联合嵌入预测架构的模型,能够实时处理通用领域的视觉-语言任务。 * 优越性能:通过在潜在空间而非数据空间的标记中进行预测,它在控制实验中始终优于生成性 VLM。 * 流媒体效率:其非自回归设计允许选择性解码,为在线视频应用提供巨大的效率提升。 * 统一架构:一个模型同时掌握分类、检索和 VQA 任务。