Begreppet VLM har två relaterade men väldigt olika betydelser och det är så förvirrande 1) CLIP-liknande VLM:er: 2 kodare tränade från grunden 2) Llava-liknande VLM:er: en visionskodare kopplad till en LLM, båda förtränade Ful bild genererad med nanobanan förstås