O termo VLM tem dois significados relacionados, mas muito diferentes, e é tão confuso 1) VLMs semelhantes ao CLIP: 2 codificadores treinados do zero 2) VLMs semelhantes ao Llava: um codificador de visão ligado a um LLM, ambos pré-treinados Imagem feia gerada com banana nano, claro