Begrepet VLM har to beslektede, men veldig forskjellige betydninger, og det er så forvirrende 1) CLIP-lignende VLM-er: 2 kodere trent fra bunnen av 2) Llava-lignende VLM-er: en visjonskoder koblet til en LLM, begge forhåndstrente Stygt bilde generert med nanobanan selvfølgelig.