一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我们推出了 WorldVQA，这是一个新的基准，用于测量多模态大型语言模型中的原子视觉中心世界知识。当前的评估通常将视觉知识检索与推理混为一谈。相反，WorldVQA 将这些能力解耦，以严格测量“模型记住了什么”。该基准由 3,500 对 VQA 组成，涵盖 9 个类别，特别关注语言和文化的多样性：