Una scala di sigmoidi Ho approfondito un riferimento dopo aver letto il pezzo di Dwarkesh che mi ha preoccupato non poco. Nel post menziona: "Toby Ord ha un ottimo post in cui collega in modo intelligente i punti tra diversi grafici benchmark o-series, il che suggeriva che "abbiamo bisogno di qualcosa come un aumento di scala di 1.000.000x del totale del calcolo RL per dare una spinta simile a un livello GPT"." Questo fa sembrare che le cose stiano per fermarsi. Toby arriva a dire due cose che mi hanno preoccupato: 1. "Abbiamo visto guadagni impressionanti, ma questi erano sostenibili solo partendo da una base così bassa. Siamo arrivati al punto in cui è troppo costoso andare molto oltre." 2. "Ora che l'addestramento RL si avvicina al suo limite efficace, potremmo aver perso la capacità di trasformare efficacemente più calcolo in più intelligenza." Ho chiesto in giro quanto fosse legittima questa affermazione e qual era il caso opposto per aumentare il calcolo RL. Un buon amico ha detto: "Sì, se continui a scalare naivamente il calcolo RL, scalerà male. Ma non dovremmo farlo! Ecco perché ci sono così tante aziende di ambienti RL. Un approccio migliore è scalare verso ambienti nuovi e più difficili. " Dopo aver riflettuto un po', ho trovato un modo per comprimere ulteriormente questo concetto: "Immaginarlo come una scala di sigmoidi per nuovi compiti, mondi, obiettivi è il modo più utile per pensare a come possa continuare per un po'."