NIEUWE PAPER: LLM's zijn ongelooflijk goed in het uitleggen van dingen en slecht in het uitvoeren ervan. Vraag een model "hoe" je twee decimalen moet vergelijken, en het geeft je een perfect stap-voor-stap algoritme. Vraag het om daadwerkelijk de vergelijking "uit te voeren"... en plotseling “9.11 is groter dan 9.9 omdat 90 meer is dan 11.” Onderzoekers noemen dit het "computational split-brain syndrome". LLM's ontwikkelen één pad voor het uitleggen van een procedure, en een compleet ander pad voor het uitvoeren ervan. Deze twee paden bevinden zich in verschillende delen van de geometrie van het model (zoals weergegeven in t-SNE-plots op pagina's 14–16 van deze paper) en ze communiceren niet met elkaar. Dit is waarom een model je lange delingen kan leren maar het niet betrouwbaar kan uitvoeren. Of waarom het logische regels kan verwoorden maar faalt in basisinferentie. Of waarom het foutloze taal produceert en broze redeneringen. Uitleg is patroonherinnering. Uitvoering is berekening. LLM's excelleren in het eerste en hebben fundamenteel moeite met het tweede. Diep in de architectuur vervagen embeddings betekenissen die mensen gescheiden houden. De paper geeft een hilarisch voorbeeld: “9.11” zit dichter bij "11 september" dan bij "negen komma elf" omdat token embeddings gemiddeld worden over elke context die ze hebben gezien. Die “contextuele contaminatie” maakt schone symbolische redenering onmogelijk. Bovendien... Transformers kunnen alleen "gewogen gemiddelden" produceren van wat ze hebben gezien. Ze kunnen geen nieuwe symbolische waarden genereren zoals “3354” van “43 × 78” met behulp van echte wiskunde. ...