即使是目前最先進的多模態大型語言模型(例如,GPT-5 和 Claude Opus 4.1)也存在一個引人入勝且揭示性的缺陷,我稱之為認知的模態孤立。 這些模型看起來更像是弗蘇斯坦模型,從單獨訓練的部分粗略地組合在一起,通過將請求路由到正確的組件來結合,而不是以深層的方式進行適當的整合。 對我來說,這一點的明顯表現就是這些模型在創建連貫的原創 ASCII 藝術方面是多麼糟糕,甚至在修改現有藝術作品時,對於一個擁有正確工具的孩子來說都會很容易(例如,asciiflow 編輯器,這是一個很棒且免費的瀏覽器工具)。 我最近創建了一個很好的工具,用於以強大的方式檢查代碼文件中的問題,使用 ast-grep(當它完成時我會發更多的帖子),我想為每種編程語言製作一個漂亮的橫幅,包含不同的 ASCII 藝術吉祥物或標誌(Python 的蛇,Golang 的 gopher 等)。 這項任務在保持連貫性的同時用新藝術替換舊藝術,對每個模型來說都是完全不可能的。 即使我將我想要的表達得非常明確(我因為病態的好奇心而堅持了一段時間,就像一位神經學家在對一位患有腦損傷的病人進行診斷),他們在這方面的表現也非常可笑。 他們甚至犯了一些人類絕對不會犯的真正外星錯誤,例如將“BUG”這個詞的 ASCII 藝術塊字母替換為重複的字串“BUG,”顯示出一種奇怪的本體論混淆,這在考慮到他們是如何在序列自回歸的下一個字符匹配上進行訓練時是可以理解的。 當人類嘗試執行這項任務時,他們在“符號空間”和“物理(螢幕)空間”之間不斷進行一種格式轉換。 我們在符號上進行更改以添加或移動 ASCII 字符,但然後觀察和感知我們剛剛所做的視覺效果,以查看是否正確。這是如此無縫,以至於我們甚至不會太注意。 這些多模態大型語言模型似乎無法做到這一點,或者至少在單次推理過程中無法做到。他們被困在某一種模態中,似乎無法將它們融合在一起。 如果他們能做到,這項我所描述的任務對他們來說將是微不足道的,而不是完全無法克服的。 我認為下一代多模態大型語言模型必須擁有某種數字類比於大腦中的胼胝體,該結構統一了兩個大腦半球並幫助協調不同的認知模態,形成統一的意識。 也就是說,密集的、可訓練的連接,允許不同的模態在處理過程中不斷相互調節。如果你願意,可以稱之為跨模態的連接。