Istilah VLM memiliki dua arti yang terkait tetapi sangat berbeda dan sangat membingungkan 1) VLM seperti CLIP: 2 encoder yang dilatih dari awal 2) VLM seperti Llava: encoder penglihatan yang terpasang pada LLM, keduanya telah dilatih sebelumnya Gambar jelek yang dihasilkan dengan pisang nano tentu saja