Термін VLM має два пов'язаних, але дуже різних значення, і це дуже заплутано 1) CLIP-подібні VLM: 2 енкодери, навчені з нуля 2) VLM, схожі на Llava: кодувач візії, прикріплений до LLM, обидва попередньо навчені Звісно, потворне зображення, створене з нано-бананом