我们推出了 WorldVQA,这是一个新的基准,用于测量多模态大型语言模型中的原子视觉中心世界知识。 当前的评估通常将视觉知识检索与推理混为一谈。相反,WorldVQA 将这些能力解耦,以严格测量“模型记住了什么”。 该基准由 3,500 对 VQA 组成,涵盖 9 个类别,特别关注语言和文化的多样性: