En trapp av sigmoider Jeg gravde i en referanse etter å ha lest Dwarkesh-artikkelen som gjorde meg ganske bekymret. I innlegget nevner han: "Toby Ord har et flott innlegg hvor han smart kobler sammen prikkene mellom ulike o-serie benchmark-diagrammer, som antydet at "vi trenger noe som en 1 000 000x oppskalering av total RL-beregning for å gi en økning lik et GPT-nivå." Dette får det til å høres ut som om ting kommer til å stoppe opp. Toby går så langt som å si to ting som bekymret meg: 1. "Vi har sett imponerende fremgang, men disse var bare levedyktige når man startet fra så lav base. Vi har nådd et punkt hvor det er for dyrt å gå mye lenger.» 2. "Nå som RL-trening nærmer seg sin effektive grense, kan vi ha mistet evnen til effektivt å omdanne mer beregning til mer intelligens." Jeg spurte rundt hvor legitim denne påstanden var og hva motargumentet var for å skalere opp RL. En god venn sa: «Ja, hvis du naivt skalerer RL-beregningen, vil det skalere dårlig. Men det burde vi ikke gjøre! Derfor finnes det så mange RL-miljøselskaper. En bedre tilnærming er å skalere til nyere, mer krevende miljøer. " Etter å ha tenkt litt på det, fant jeg en måte å komprimere dette ytterligere til: «Å forestille seg det som en trapp med sigmoider for nye oppgaver, verdener, mål er den mest hjelpsomme måten å tenke på hvordan det kan fortsette en stund.»