Tento článek stojí ~4,2 milionu USD (400K GB200 hodin) -- věda! Náš nejdražší běh byl 100K GPU hodina (stejné množství jako Deepseek-R1-zero, ale na GB200s). Jedním ze zjištění bylo, že jakmile máme škálovatelný algoritmus RL, škálování výpočtů RL se stává předvídatelným (např. jsme extrapolovali na 3x výpočet pro 17Bx16 MoE z 16k GPU hodin na 50k hodin). Druhým je, že při porovnávání algoritmů přijměte hořkou lekci (zkuste předpovědět, jak dobře by se škálovalo s výpočtem pomocí dané křivky výkonu, namísto pouze výkonu při pevném výpočtu). Většina algoritmických triků ve škálovatelné metodě RL nemění výkon asymptote, ale věci jako velikost modelu, délka kontextu, velikost dávky a data ano. V RL je samozřejmě mnoho designových možností, takže si nemyslíme, že recept na ScaleRL je koncem příběhu.