Jedním ze zajímavých a odhalujících nedostatků i těch nejpokročilejších multimodálních LLM současnosti (např. GPT-5 a Claude Opus 4.1) je to, co bych nazval modálním silováním kognice. Tyto modely se zdají být spíše jako Frankensteinovy modely, spojené dohromady poněkud hrubě ze samostatně naučených částí, které jsou kombinovány prostřednictvím směrovacích požadavků na správnou komponentu, spíše než aby byly řádně integrovány hlubokým způsobem. Velkým "výpovědí" pro mě je, jak hrozné jsou všechny tyto modely při vytváření koherentních originálních ASCII kreseb, nebo dokonce v úpravách existujících kreseb způsobem, který by byl pro dítě snadný se správným nástrojem (např. editor asciiflow, který je úžasný a v prohlížeči zdarma). Nedávno jsem vytvořil pěkný nástroj pro kontrolu problémů s kódovými soubory pomocí ast-grep výkonnými způsoby (o tom napíšu více, až to bude hotové), a chtěl jsem vytvořit pěkný banner pro každý programovací jazyk, který by obsahoval jiného maskota nebo logo ascii umění pro každý z nich (had pro Python, gopher pro Golang, atd.). Tento úkol nahradit grafiku novou grafikou při zachování soudržnosti byl prostě naprosto nemožný pro každý model. I když jsem dal jasně najevo, co jsem chtěl (vytrval jsem ještě chvíli z morbidní zvědavosti, jako když neurolog provádí diagnostiku pacienta trpícího mozkovými lézemi), byli v tom komicky špatní. Dokonce se dopustili některých skutečně cizích chyb, které by člověk nikdy neudělal, jako je nahrazení blokových písmen ascii art pro slovo "BUG" opakovanými výskyty doslovného řetězce "BUG", což ukazuje bizarní ontologický zmatek, který dává smysl, pokud si uvědomíte, jak jsou trénováni na sekvenční autoregresivní porovnávání dalších znaků. Když se člověk pokouší provést tento úkol, neustále gestalt přepíná tam a zpět mezi "prostorem symbolů" a "fyzickým (obrazovkovým) prostorem". Symbolicky uděláme změnu, abychom přidali nebo přesunuli ascii postavu, ale pak pozorujeme a vnímáme, co jsme právě udělali vizuálně, abychom zjistili, jestli je to správně. Je to tak bezproblémové, že si toho vlastně ani moc nevšimneme. Zdá se, že tyto multimodální LLM to neumí, nebo dokonce že by toho nebyly schopny, alespoň v jediném inferenčním průchodu. Jsou uvězněni buď v jedné nebo druhé modalitě a zdá se, že je nemohou sloučit. Kdyby mohli, byl by pro ně tento úkol, který jsem popsal, triviální a ne zcela nepřekonatelný. Předpokládám, že příští generace multimodálních LLM musí mít nějaký druh digitální analogie k corpus callosum v mozku, který sjednocuje dvě mozkové hemisféry a pomáhá koordinovat různé kognitivní modality ve sjednoceném vědomí. To znamená hustá, trénovatelná spojení, která umožňují různým modalitám se během zpracování neustále modulovat. Intermodální, chcete-li.