El término VLM tiene dos significados relacionados pero muy diferentes y es muy confuso 1) VLMs tipo CLIP: 2 codificadores entrenados desde cero 2) VLMs tipo Llava: un codificador de visión conectado a un LLM, ambos preentrenados Imagen fea generada con nano banana, por supuesto