NUOVO DOCUMENTO: Gli LLM sono incredibili nel spiegare le cose e terribili nel farle. Chiedi a un modello "come" confrontare due decimali, e ti darà un algoritmo perfetto passo dopo passo. Chiedilo di "fare" effettivamente il confronto… e all'improvviso “9.11 è maggiore di 9.9 perché 90 è più di 11.” I ricercatori chiamano questo "sindrome del cervello computazionale diviso". Gli LLM sviluppano un percorso per spiegare una procedura e un percorso completamente diverso per eseguirla. Questi due percorsi vivono in parti diverse della geometria del modello (come mostrato nei grafici t-SNE a pagina 14–16 di questo documento) e non comunicano tra loro. Ecco perché un modello può insegnarti la divisione lunga ma non può farla in modo affidabile. O perché può articolare regole logiche eppure fallire in inferenze di base. O perché produce un linguaggio impeccabile e un ragionamento fragile. La spiegazione è richiamo di schemi. L'esecuzione è computazione. Gli LLM eccellono nel primo e lottano fondamentalmente con il secondo. Nel profondo dell'architettura, gli embedding confondono i significati che gli esseri umani mantengono separati. Il documento fornisce un esempio esilarante: “9.11” si trova più vicino a "11 settembre" che a "nove punto undici" perché gli embedding dei token si media attraverso ogni contesto che hanno visto. Quella “contaminazione contestuale” rende impossibile un ragionamento simbolico pulito. Inoltre... I trasformatori possono solo produrre "medie ponderate" di ciò che hanno visto. Non possono generare nuovi valori simbolici come “3354” da “43 × 78” usando la matematica reale. ...