VLM 这个术语有两个相关但非常不同的含义,这让人感到困惑 1) 类似 CLIP 的 VLM:从头开始训练的两个编码器 2) 类似 Llava 的 VLM:一个附加在 LLM 上的视觉编码器,两个都是预训练的 当然,使用 nano banana 生成的丑陋图像