Leggi l'eccellente "Cosa sta facendo ChatGPT..." di Wolfram (h/t @danielrock). Scrive che abbiamo imparato molto su come funziona il linguaggio dal fatto che GPT3, con solo 175 miliardi di pesi, è in grado di emularlo così bene. Questo implica che è computazionalmente molto più semplice di quanto potessimo pensare. Ma che dire della matematica? Al momento in cui è stato scritto (2023), GPT era ancora molto scarso in matematica. I modelli sono diventati molto (molto) bravi in matematica quando è uscito il primo modello di ragionamento (o1), che si basava molto di più sull'apprendimento per rinforzo piuttosto che solo sul pre-addestramento brute force. Mi chiedo cosa significhi questo per la matematica? Concettualmente, il linguaggio è molto più "sfocato" della matematica: più parole possono sembrare "giuste" nello stesso punto di una frase. Questo è ciò che rende funzionare l'architettura LLM probabilistica. La matematica è meno sfocata. Questo è forse il motivo per cui il passo RL più "basato su regole" è stato cruciale. Ma questo implica anche che la matematica formale è meno complessa computazionalmente di quanto pensassimo. Pensieri? @littmath @alz_zyd_