Una deficiencia intrigante y reveladora de incluso los modelos LLM multi-modales más avanzados ahora (por ejemplo, GPT-5 y Claude Opus 4.1) es lo que yo llamaría el silo modal de la cognición. Estos modelos parecen ser más como modelos de Frankenstein, unidos de manera algo burda a partir de piezas entrenadas por separado que se combinan mediante el enrutamiento de solicitudes al componente correcto, en lugar de estar integrados de manera profunda. La gran "señal" para mí en esto es lo horribles que son todos estos modelos para crear arte ASCII original coherente, o incluso modificar arte existente de una manera que sería fácil para un niño dado el herramienta adecuada (por ejemplo, el editor asciiflow, que es increíble y gratuito en el navegador). Recientemente creé una buena utilidad para verificar archivos de código en busca de problemas utilizando ast-grep de maneras poderosas (hablaré más sobre ello cuando esté terminado), y quería hacer un bonito banner para cada lenguaje de programación que incluyera un diferente mascota o logo de arte ASCII para cada uno (serpiente para Python, gopher para Golang, etc). Esta tarea de reemplazar el arte con nuevo arte mientras se mantiene la coherencia fue totalmente imposible para cada modelo. Incluso cuando hice lo que quería realmente explícito (persistí un poco más por morbo, como un neurólogo haciendo diagnósticos a un paciente que sufre de lesiones cerebrales), fueron cómicamente malos en ello. Incluso cometieron algunos errores verdaderamente alienígenas que un humano nunca haría, como reemplazar las letras en bloque de arte ASCII para la palabra "BUG" con instancias repetidas de la cadena literal "BUG, " mostrando una extraña confusión ontológica que tiene sentido si consideras cómo están entrenados en la coincidencia de caracteres secuenciales autorregresivos. Cuando un humano intenta hacer esta tarea, realiza una especie de cambio de gestalt de un lado a otro constantemente entre "espacio simbólico" y "espacio físico (pantalla)". Hacemos un cambio simbólicamente para agregar o mover un carácter ASCII, pero luego observamos y percibimos lo que acabamos de hacer visualmente para ver si está bien. Es tan fluido que ni siquiera lo notamos mucho. Estos LLM multi-modales no parecen hacer eso, o incluso ser capaces de hacerlo, al menos en una sola pasada de inferencia. Están atrapados en una modalidad u otra y no parecen poder fusionarlas. Si pudieran, esta tarea que he descrito sería trivial para ellos en lugar de totalmente insuperable. Postulo que los LLM multi-modales de próxima generación deben tener algún tipo de análogo digital al cuerpo calloso en el cerebro, que unifica los dos hemisferios cerebrales y ayuda a coordinar diferentes modalidades cognitivas en una conciencia unificada. Es decir, conexiones densas y entrenables que permiten que diferentes modalidades se modulen continuamente entre sí durante el procesamiento. Inter-modal, si se quiere.