热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我们推出了 WorldVQA,这是一个新的基准,用于测量多模态大型语言模型中的原子视觉中心世界知识。
当前的评估通常将视觉知识检索与推理混为一谈。相反,WorldVQA 将这些能力解耦,以严格测量“模型记住了什么”。
该基准由 3,500 对 VQA 组成,涵盖 9 个类别,特别关注语言和文化的多样性:

热门
排行
收藏
