Lees Wolfram's uitstekende "Wat doet ChatGPT..." (h/t @danielrock). Hij schrijft dat we veel hebben geleerd over hoe taal werkt uit het feit dat GPT3, met slechts 175 miljard gewichten, het zo goed kan emuleren. Dit impliceert dat het computationeel veel eenvoudiger is dan we misschien dachten. Maar hoe zit het met wiskunde? Op het moment dat dit werd geschreven (2023), was GPT nog steeds erg slecht in wiskunde. De modellen werden erg (erg) goed in wiskunde toen het eerste redeneermodel uitkwam (o1), dat veel meer afhankelijk was van versterkend leren in plaats van alleen brute kracht pretraining. Vraag me af wat dit zegt over wiskunde? Conceptueel is taal veel "vager" dan wiskunde: meerdere woorden kunnen "juist" klinken op dezelfde plek in een zin. Dit is wat de probabilistische LLM-architectuur laat werken. Wiskunde is minder vaag. Dit is misschien waarom de meer "regelgebaseerde" RL-stap cruciaal was. Maar dit impliceert ook dat formele wiskunde minder computationeel complex is dan we dachten. Gedachten? @littmath @alz_zyd_