Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
*sjekker chatgpt* Denne artikkelen koster ~4,2 millioner USD (400K GB200 timer) -- vitenskap!
Vår dyreste kjøring var en 100K GPU-time (samme mengde som Deepseek-R1-null, men på GB200s).
Et funn her var at når vi har en skalerbar RL-algoritme, blir RL-beregningsskalering forutsigbar (f.eks. ekstrapolerte vi til 3x databehandling for en 17Bx16 MoE fra 16k GPU-timer til 50k timer).
Den andre er når du sammenligner algoritmer, omfavn den bitre lærdommen (prøv å forutsi hvor godt den vil skalere med databehandling ved å bruke en gitt ytelseskurve, i stedet for bare ytelse ved en fast databehandling).
De fleste algoritmiske triks i en skalerbar RL-metode endrer ikke asymptoteytelsen, men ting som modellstørrelse, kontekstlengde, batchstørrelse og data gjør det.
Det er selvfølgelig mange designvalg i RL, så vi tror ikke at ScaleRL-oppskriften er slutten på historien.
Topp
Rangering
Favoritter
