即使是最先进的多模态LLM(例如,GPT-5和Claude Opus 4.1)也存在一个引人注目且揭示性的缺陷,我称之为认知的模态孤立。 这些模型更像是弗兰肯斯坦模型,粗略地将分别训练的部分组合在一起,通过将请求路由到正确的组件,而不是以深层次的方式进行适当整合。 对我来说,这一切的“大揭示”在于这些模型在创建连贯的原创ASCII艺术方面是多么糟糕,甚至在修改现有艺术时也显得无能为力,这对于一个拥有正确工具的孩子来说都是轻而易举的(例如,asciiflow编辑器,真是太棒了,而且在浏览器中是免费的)。 我最近创建了一个很好的工具,用于以强大的方式检查代码文件中的问题,使用ast-grep(完成后我会更多地发布关于它的内容),我想为每种编程语言制作一个漂亮的横幅,其中包含不同的ASCII艺术吉祥物或标志(Python的蛇,Golang的gopher等)。 在保持连贯性的同时用新艺术替换旧艺术的任务对每个模型来说都是完全不可能的。 即使我将我想要的内容表达得非常明确(我出于病态的好奇心坚持了一段时间,就像神经病学家对一个患有脑损伤的病人进行诊断),它们在这方面的表现也可笑得令人失望。 它们甚至犯了一些人类绝对不会犯的真正外星错误,例如将“BUG”这个词的ASCII艺术块字母替换为重复的字面字符串“BUG,”显示出一种奇怪的本体论混淆,如果考虑到它们是如何在顺序自回归下一个字符匹配上进行训练的,这就能理解了。 当人类尝试执行这个任务时,他在“符号空间”和“物理(屏幕)空间”之间不断进行一种整体切换。 我们在符号上进行更改以添加或移动一个ASCII字符,但随后观察和感知我们刚刚所做的视觉效果,以查看是否正确。这是如此无缝,以至于我们甚至没有太注意到。 这些多模态LLM似乎并不这样做,或者至少在单次推理过程中无法做到。它们被困在某一种模态中,似乎无法将它们融合在一起。 如果它们能够做到,这个我所描述的任务对它们来说将是微不足道的,而不是完全不可逾越的。 我认为下一代多模态LLM必须具备某种数字类比于大脑中的胼胝体,它统一了两个大脑半球,并帮助协调不同的认知模态,以形成统一的意识。 也就是说,密集的、可训练的连接,允许不同的模态在处理过程中不断相互调节。如果你愿意,可以称之为跨模态的连接。