VLMという言葉は関連しているが全く異なる意味があり、とても混乱を招きます 1) クリップライクVLM:2つのエンコーダーがゼロから訓練済み 2) Llava様VLM:LLMに接続されたビジョンエンコーダで、どちらも事前学習済みです もちろんナノバナナで生成された醜い画像です