一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

VLM 这个术语有两个相关但非常不同的含义，这让人感到困惑 1) 类似 CLIP 的 VLM：从头开始训练的两个编码器 2) 类似 Llava 的 VLM：一个附加在 LLM 上的视觉编码器，两个都是预训练的当然，使用 nano banana 生成的丑陋图像