Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tento článek stojí ~4,2 milionu USD (400K GB200 hodin) -- věda!
Náš nejdražší běh byl 100K GPU hodina (stejné množství jako Deepseek-R1-zero, ale na GB200s).
Jedním ze zjištění bylo, že jakmile máme škálovatelný algoritmus RL, škálování výpočtů RL se stává předvídatelným (např. jsme extrapolovali na 3x výpočet pro 17Bx16 MoE z 16k GPU hodin na 50k hodin).
Druhým je, že při porovnávání algoritmů přijměte hořkou lekci (zkuste předpovědět, jak dobře by se škálovalo s výpočtem pomocí dané křivky výkonu, namísto pouze výkonu při pevném výpočtu).
Většina algoritmických triků ve škálovatelné metodě RL nemění výkon asymptote, ale věci jako velikost modelu, délka kontextu, velikost dávky a data ano.
V RL je samozřejmě mnoho designových možností, takže si nemyslíme, že recept na ScaleRL je koncem příběhu.
Top
Hodnocení
Oblíbené
