Термин VLM имеет два связанных, но очень разных значения, и это так запутанно 1) VLM, подобные CLIP: 2 кодировщика, обученных с нуля 2) VLM, подобные Llava: визуальный кодировщик, прикрепленный к LLM, оба предварительно обучены Ужасное изображение, сгенерированное с помощью нано-банана, конечно