Esittelemme WorldVQA:n, uuden mittarin, jolla mitataan atominäköön keskittyvää maailmantietoa multimodaalisissa suurissa kielimalleissa. Nykyiset arvioinnit sekoittavat usein visuaalisen tiedon haun ja päättelyn. Sen sijaan WorldVQA irrottaa nämä kyvykkyydet mitatakseen tarkasti "mitä malli muistaa." Vertailuarvo koostuu 3 500 VQA-parista yhdeksässä kategoriassa, kiinnittäen erityistä huomiota kielelliseen ja kulttuuriseen monimuotoisuuteen: