Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
En trapp av sigmoider
Jeg gravde i en referanse etter å ha lest Dwarkesh-artikkelen som gjorde meg ganske bekymret. I innlegget nevner han:
"Toby Ord har et flott innlegg hvor han smart kobler sammen prikkene mellom ulike o-serie benchmark-diagrammer, som antydet at "vi trenger noe som en 1 000 000x oppskalering av total RL-beregning for å gi en økning lik et GPT-nivå."
Dette får det til å høres ut som om ting kommer til å stoppe opp.
Toby går så langt som å si to ting som bekymret meg:
1. "Vi har sett imponerende fremgang, men disse var bare levedyktige når man startet fra så lav base. Vi har nådd et punkt hvor det er for dyrt å gå mye lenger.»
2. "Nå som RL-trening nærmer seg sin effektive grense, kan vi ha mistet evnen til effektivt å omdanne mer beregning til mer intelligens."
Jeg spurte rundt hvor legitim denne påstanden var og hva motargumentet var for å skalere opp RL.
En god venn sa: «Ja, hvis du naivt skalerer RL-beregningen, vil det skalere dårlig. Men det burde vi ikke gjøre! Derfor finnes det så mange RL-miljøselskaper. En bedre tilnærming er å skalere til nyere, mer krevende miljøer. "
Etter å ha tenkt litt på det, fant jeg en måte å komprimere dette ytterligere til: «Å forestille seg det som en trapp med sigmoider for nye oppgaver, verdener, mål er den mest hjelpsomme måten å tenke på hvordan det kan fortsette en stund.»
Topp
Rangering
Favoritter

