ci sono stati cinque anni e mezzo tra "attention is all you need" e il rilascio di chatGPT. sono passati altri tre anni da allora. ho trascorso la maggior parte di oggi cercando di mettere insieme parole che in qualche modo dessero senso a questi anni. quando "attention" è uscito avevo 19 anni e lavoravo in un laboratorio industriale di ML occupandomi di parsing di documenti. il modeling del linguaggio era senza dubbio un retroterra culturale all'epoca, specialmente in ambito sanitario. ibm watson aveva appena incenerito qualche miliardo di dollari durante il primo grande sogno febbrile di NLP, e l'idea che anche solo qualche milione di dollari potesse rientrare in questo campo sembrava stravagante. l'estate successiva è uscito il paper sul pre-training generativo. ricordo di averlo ricevuto tramite inoltro dal fidanzato di una mia compagna di college che gestiva un'azienda di elaborazione documenti in un basso industriale di boston. se chiudevi gli occhi, insieme formavano un quadro sufficiente di un'agenda di ricerca per ottenere un NLP industriale davvero buono. potevi immaginare di curare dataset, e magari anche trovare abbastanza soldi per mettere insieme un paio di gpu, avresti potuto ottenere qualcosa di utile. ho lasciato il mio lavoro quell'autunno per lavorare sui modelli. il centro spirituale della comunità "l'AI è un po' reale" a quel punto era un insieme di case di gruppo a berkeley che erano convinte di aver risolto la psicologia umana. sarebbero passati ancora alcuni anni prima che crollassero in uno scandalo di evocazione di demoni. e sarebbero passati altri due anni da quel momento prima che le leggi di scaling diventassero chiare. e ci sarebbe voluto molto, molto più tempo fino a chatGPT. quel divario è ciò che mi perseguita. cinque anni e mezzo erano un'eternità, ma ora ne parliamo come se fosse stata una linea retta. non lo era. era un percorso errante con enormi quantità di capitale incenerito, aziende distrutte e dozzine di vicoli ciechi. ora tutti presumono che la fase di distribuzione sarà istantanea. che, poiché abbiamo l'intelligenza, l'economia si rimodellerà fluidamente attorno ad essa. ma guardo ai sistemi in cui stiamo cercando di iniettare queste cose-- processi umani in carne e ossa-- sembra impossibile non sentire quella stessa sensazione di dilatazione temporale. far funzionare il modello era un problema tecnologico. far funzionare il mondo con esso è tutt'altro che semplice. la strada verso una reale diffusione economica sarà molto più lunga di quanto i mercati di capitali possano permettere. tranne che questa volta non è ibm a bruciare qualche miliardo. sono tutti. ogni mega cap. ogni startup. trilioni di capitalizzazione di mercato scommettendo su tempistiche di distribuzione che presumono che le organizzazioni umane si comportino come prodotti tecnologici. ...