Termin VLM ma dwa powiązane, ale bardzo różne znaczenia i jest to bardzo mylące 1) VLM-y podobne do CLIP: 2 enkodery trenowane od podstaw 2) VLM-y podobne do Llava: enkoder wizji podłączony do LLM, oba wstępnie wytrenowane Brzydki obraz wygenerowany oczywiście z nano banana