Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Een Trap van Sigmoïden
Ik heb me verdiept in een referentie na het lezen van het Dwarkesh-artikel dat me behoorlijk bezorgd maakte. In de post noemt hij:
"Toby Ord heeft een geweldige post waarin hij slim de punten verbindt tussen verschillende o-series benchmarkgrafieken, wat suggereert dat "we iets nodig hebben zoals een 1.000.000x opschaling van totale RL-compute om een boost te geven die vergelijkbaar is met een GPT-niveau"."
Dit doet het lijken alsof dingen gaan stagneren.
Toby gaat zo ver om twee dingen te zeggen die me bezorgd maakten:
1. "We hebben indrukwekkende winsten gezien, maar deze waren alleen haalbaar toen we vanuit zo'n lage basis begonnen. We hebben het punt bereikt waarop het te duur is om veel verder te gaan."
2. "Nu RL-training zijn effectieve limiet nadert, hebben we misschien het vermogen verloren om meer compute effectief om te zetten in meer intelligentie."
Ik heb rondgevraagd hoe legitiem deze claim was en wat de tegenargumenten waren voor het opschalen van RL.
Een goede vriend zei: "Ja, als je RL-compute naief opschaalt, zal het slecht opschalen. Maar dat moeten we niet doen! Daarom zijn er zoveel RL-omgeving bedrijven. Een betere aanpak is om op te schalen naar nieuwere, moeilijkere omgevingen. "
Na er even over nagedacht te hebben, vond ik een manier om dit verder te comprimeren tot: "Het voorstellen als een trap van sigmoïden voor nieuwe taken, werelden, doelen is de meest nuttige manier om na te denken over hoe het een tijdje kan doorgaan."
Boven
Positie
Favorieten

