Una deficiencia intrigante y reveladora incluso de los LLM multimodales más avanzados ahora (por ejemplo, GPT-5 y Claude Opus 4.1) es lo que yo llamaría el silo modal de la cognición. Estos modelos parecen ser más como modelos de Frankenstein, unidos de manera algo tosca a partir de piezas entrenadas por separado que se combinan a través de solicitudes de enrutamiento al componente correcto, en lugar de integrarse adecuadamente de manera profunda. El gran "indicio" para mí en esto es lo horribles que son todos estos modelos para crear arte ASCII original coherente, o incluso modificar el arte existente de una manera que sería fácil para un niño con la herramienta adecuada (por ejemplo, el editor asciiflow, que es increíble y gratuito en el navegador). Recientemente creé una buena utilidad para verificar archivos de código en busca de problemas usando ast-grep de maneras poderosas (publicaré más sobre esto cuando esté listo), y quería hacer un buen banner para cada lenguaje de programación que incluyera una mascota o logotipo de arte ascii diferente para cada uno (serpiente para Python, ardilla para Golang, etc.). Esta tarea de reemplazar el arte con arte nuevo mientras se mantenía la coherencia era totalmente imposible para todos los modelos. Incluso cuando hice lo que quería realmente explícito (persistí por un tiempo más por curiosidad morbosa, como un neurólogo que diagnostica a un paciente que sufre lesiones cerebrales), fueron cómicamente malos en eso. Incluso cometieron algunos errores verdaderamente extraños que un humano nunca cometería, como reemplazar las letras mayúsculas de arte ascii para la palabra "BUG" con instancias repetidas de la cadena literal "BUG", mostrando una extraña confusión ontológica que tiene sentido si considera cómo se entrenan en la coincidencia secuencial autorregresiva del siguiente carácter. Cuando un humano intenta hacer esta tarea, hace una especie de cambio gestáltico de un lado a otro constantemente entre el "espacio de símbolos" y el "espacio físico (pantalla)". Hacemos un cambio simbólicamente para agregar o mover un carácter ascii, pero luego observamos y percibimos lo que acabamos de hacer visualmente para ver si es correcto. Es tan perfecto que ni siquiera lo notamos mucho. Estos LLM multimodales no parecen hacer eso, o incluso ser capaces de hacerlo, al menos en un solo paso de inferencia. Están atrapados en una modalidad u otra y parece que no pueden fusionarlos. Si pudieran, esta tarea que he descrito sería trivial para ellos en lugar de totalmente insuperable. Postulo que los LLM multimodales de próxima generación deben tener algún tipo de análogo digital al cuerpo calloso en el cerebro, que unifica los dos hemisferios cerebrales y ayuda a coordinar diferentes modalidades cognitivas en una conciencia unificada. Es decir, conexiones densas y entrenables que permiten que diferentes modalidades se modulen continuamente entre sí durante el procesamiento. Intermodal si se quiere.