*sjekker chatgpt* Denne artikkelen koster ~4,2 millioner USD (400K GB200 timer) -- vitenskap! Vår dyreste kjøring var en 100K GPU-time (samme mengde som Deepseek-R1-null, men på GB200s). Et funn her var at når vi har en skalerbar RL-algoritme, blir RL-beregningsskalering forutsigbar (f.eks. ekstrapolerte vi til 3x databehandling for en 17Bx16 MoE fra 16k GPU-timer til 50k timer). Den andre er når du sammenligner algoritmer, omfavn den bitre lærdommen (prøv å forutsi hvor godt den vil skalere med databehandling ved å bruke en gitt ytelseskurve, i stedet for bare ytelse ved en fast databehandling). De fleste algoritmiske triks i en skalerbar RL-metode endrer ikke asymptoteytelsen, men ting som modellstørrelse, kontekstlengde, batchstørrelse og data gjør det. Det er selvfølgelig mange designvalg i RL, så vi tror ikke at ScaleRL-oppskriften er slutten på historien.