現在最も先進的なマルチモーダル LLM (GPT-5 や Claude Opus 4.1 など) でさえ、興味深く明らかな欠陥の 1 つは、私が認知のモーダル サイロ化と呼ぶものです。 これらのモデルは、フランケンシュタインモデルに似ており、深く統合されるのではなく、リクエストを適切なコンポーネントにルーティングすることで結合された個別にトレーニングされた部分からやや粗雑に結合されているようです。 この点で私にとって大きな「物語」は、これらのモデルが、首尾一貫したオリジナルのASCIIアートを作成したり、適切なツール(たとえば、ブラウザで素晴らしく無料のASCIIFLOWエディター)が与えられれば、子供が簡単にできる方法で既存のアートを変更したりすることにどれほどひどいかということです。 私は最近、ast-grepを強力な方法で使用してコードファイルに問題がないかチェックするための素晴らしいユーティリティを作成しました(完了したら、それについてさらに投稿します)、プログラミング言語ごとに異なるasciiアートのマスコットやロゴ(Pythonの場合はsnake、Golangの場合はgopherなど)を含む素敵なバナーを作りたかったのです。 一貫性を保ちながらアートを新しいアートに置き換えるというこの作業は、すべてのモデルにとってまったく不可能でした。 私が望むことを本当に明確にしたときでさえ(脳病変に苦しむ患者の診断をする神経内科医のように、病的な好奇心からしばらく粘り強く続けました)、彼らは滑稽なほど下手でした。 彼らは、「BUG」という単語のASCIIアートのブロック文字をリテラル文字列「BUG」の繰り返しのインスタンスに置き換えるなど、人間が決して犯さない真に異質な間違いさえ犯し、奇妙な存在論的混乱を示しています。 人間がこのタスクを行おうとするとき、彼は「シンボル空間」と「物理的(画面)空間」の間を絶えず行ったり来たりする一種のゲシュタルト切り替えを行います。 ASCII文字を追加または移動するために象徴的に変更を加えますが、それが正しいかどうかを確認するために、視覚的に行ったことを観察して認識します。あまりにもシームレスなので、あまり気づかない。 これらのマルチモーダル LLM は、少なくとも 1 回の推論パスでは、それを行うことができないようです。彼らはどちらかのモダリティに閉じ込められており、それらを融合させることができないようです。 もし彼らが可能であれば、私が説明したこのタスクは、彼らにとって完全に克服できないのではなく、些細なことになるでしょう。 次世代のマルチモーダルLLMには、脳内の脳梁に何らかのデジタルアナログがあり、脳の2つの半球を統一し、統一された意識の中で異なる認知モダリティを調整するのに役立つはずだと考えています。 つまり、処理中に異なるモダリティが互いに継続的に変調できるようにする、高密度でトレーニング可能な接続です。あなたが望むなら、インターモーダル。