O deficiență intrigantă și revelatoare chiar și a celor mai avansate LLM-uri multimodale de acum (de exemplu, GPT-5 și Claude Opus 4.1) este ceea ce aș numi izolarea modală a cogniției. Aceste modele par a fi mai mult ca modelele Frankenstein, unite oarecum grosolan, din piese antrenate separat care sunt combinate prin direcționarea cererilor către componenta potrivită, mai degrabă decât să fie integrate corect într-un mod profund. Marele "spus" pentru mine este cât de îngrozitoare sunt toate aceste modele la crearea de artă ASCII originală coerentă sau chiar la modificarea artei existente într-un mod care ar fi ușor pentru un copil cu instrumentul potrivit (de exemplu, editorul asciiflow, care este minunat și gratuit în browser). Am creat recent un utilitar frumos pentru verificarea fișierelor de cod pentru probleme legate de utilizarea ast-grep în moduri puternice (voi posta mai multe despre asta când va fi gata) și am vrut să fac un banner frumos pentru fiecare limbaj de programare care să includă o mascotă sau un logo diferit pentru fiecare (șarpe pentru Python, gopher pentru Golang etc.). Această sarcină de a înlocui arta cu artă nouă, menținând în același timp coerența, era total imposibilă pentru orice model. Chiar și atunci când am făcut ceea ce am vrut cu adevărat explicit (am persistat o vreme mai mult din curiozitate morbidă, ca un neurolog care face diagnostice unui pacient care suferă de leziuni cerebrale), au fost comic de răi la asta. Au făcut chiar și câteva erori cu adevărat străine pe care un om nu le-ar face niciodată, cum ar fi înlocuirea literelor majuscule ascii pentru cuvântul "BUG" cu instanțe repetate ale șirului literal "BUG", arătând o confuzie ontologică bizară care are sens dacă luați în considerare modul în care sunt antrenate pe potrivirea secvențială autoregresivă a caracterelor următoare. Când un om încearcă să facă această sarcină, face un fel de comutare gestalt înainte și înapoi în mod constant între "spațiul simbolului" și "spațiul fizic (ecran)". Facem o modificare simbolic pentru a adăuga sau muta un caracter ASCII, dar apoi observăm și percepem ceea ce tocmai am făcut vizual pentru a vedea dacă este corect. Este atât de perfect încât nici măcar nu îl observăm prea mult. Aceste LLM-uri multimodale nu par să facă asta, sau chiar să fie capabile, cel puțin într-o singură trecere de inferență. Sunt prinși fie într-o modalitate, fie în alta modalitate și nu par să le poată fuziona. Dacă ar putea, această sarcină pe care am descris-o ar fi banală pentru ei, în loc să fie total insurmontabilă. Presupun că următoarea generație de LLM-uri multimodale trebuie să aibă un fel de analog digital la corpul calos din creier, care unifică cele două emisfere ale creierului și ajută la coordonarea diferitelor modalități cognitive într-o conștiință unificată. Adică conexiuni dense, antrenabile, care permit diferitelor modalități să se moduleze continuu în timpul procesării. Intermodal dacă vreți.