Představujeme WorldVQA, nový benchmark pro měření světových znalostí zaměřených na atomovou vizi v multimodálních velkých jazykových modelech. Současná hodnocení často zaměňují vizuální vyhledávání znalostí s uvažováním. Naopak WorldVQA tyto schopnosti odděluje a striktně měří "co si model pamatuje". Benchmark zahrnuje 3 500 párů VQA v 9 kategoriích, s pečlivým důrazem na jazykovou a kulturní rozmanitost: