Estamos a apresentar o WorldVQA, um novo benchmark para medir o conhecimento mundial atómico centrado na visão em Modelos de Linguagem Multimodais de Grande Escala. As avaliações atuais muitas vezes confundem a recuperação de conhecimento visual com raciocínio. Em contraste, o WorldVQA desacopla essas capacidades para medir estritamente "o que o modelo memoriza." O benchmark consiste em 3.500 pares de VQA em 9 categorias, com atenção cuidadosa à diversidade linguística e cultural: