En spännande och avslöjande brist hos även de mest avancerade multimodala LLM:erna nu (t.ex. GPT-5 och Claude Opus 4.1) är vad jag skulle kalla den modala siloingen av kognition. Dessa modeller verkar vara mer som Frankenstein-modeller, sammanfogade något grovt från separat tränade delar som kombineras genom att dirigera förfrågningar till rätt komponent, snarare än att vara ordentligt integrerade på ett djupt sätt. Det stora "tell" för mig i detta är hur dåliga alla dessa modeller är på att skapa sammanhängande original ASCII-konst, eller till och med modifiera befintlig konst på ett sätt som skulle vara lätt för ett barn med rätt verktyg (t.ex. asciiflow-redigeraren, som är fantastisk och gratis i webbläsaren). Jag skapade nyligen ett trevligt verktyg för att kontrollera kodfiler för problem med att använda ast-grep på kraftfulla sätt (jag kommer att skriva mer om det när det är klart), och jag ville göra en trevlig banner för varje programmeringsspråk som inkluderade en annan ascii artmaskot eller logotyp för var och en (orm för Python, gopher för Golang, etc). Uppgiften att ersätta konsten med ny konst och samtidigt behålla koherensen var helt omöjlig för varje modell. Till och med när jag gjorde vad jag ville väldigt tydligt (jag framhärdade ett tag mer av morbid nyfikenhet, som en neurolog som gör diagnostik på en patient som lider av hjärnskador), var de komiskt dåliga på det. De gjorde till och med några verkligt utomjordiska fel som en människa aldrig skulle göra, som att ersätta ascii-konstblockbokstäverna för ordet "BUG" med upprepade förekomster av den bokstavliga strängen "BUG", vilket visar en bisarr ontologisk förvirring som är logisk om du tänker på hur de är tränade på sekventiell autoregressiv matchning av nästa tecken. När en människa försöker utföra denna uppgift gör hon en sorts gestaltväxling fram och tillbaka mellan "symbolrummet" och det "fysiska (skärm)rummet". Vi gör en ändring symboliskt för att lägga till eller flytta ett ascii-tecken, men observerar och uppfattar sedan vad vi just har gjort visuellt för att se om det är rätt. Det är så sömlöst att vi inte ens märker det särskilt mycket. Dessa multimodala LLM:er verkar inte göra det, eller ens kunna, åtminstone i ett enda inferenspass. De är fångade i antingen en modalitet eller en annan och verkar inte kunna smälta samman dem. Om de kunde det skulle denna uppgift som jag har beskrivit vara trivial för dem istället för helt oöverstiglig. Jag antar att nästa generations multimodala LLM:er måste ha någon form av digital motsvarighet till corpus callosum i hjärnan, som förenar de två hjärnhalvorna och hjälper till att koordinera olika kognitiva modaliteter i ett enat medvetande. Det vill säga täta, träningsbara anslutningar som gör att olika modaliteter kontinuerligt modulerar varandra under bearbetningen. Intermodal om man så vill.