私たちはWorldVQAを導入します。これは、マルチモーダル大規模言語モデルにおける原子的視覚中心の世界知識を測定するための新しいベンチマークです。 現在の評価では、視覚的知識の検索と推論をしばしば混同しています。対照的に、WorldVQAはこれらの機能を切り離し、「モデルが記憶するもの」を厳密に測定しています。 このベンチマークは9つのカテゴリーにわたる3,500組のVQAペアで構成され、言語的・文化的多様性に細心の注意を払っています。