Termín VLM má dva související, ale velmi odlišné významy a je to tak matoucí 1) CLIP-like VLM: 2 enkodéry trénované od nuly 2) VLM podobné llavi: enkodér vidění připojený k LLM, oba předtrénované Samozřejmě ošklivý obrázek vytvořený nanobanánem