Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
*controlla chatgpt* Questo documento costa ~4,2 milioni USD (400K ore GB200) -- scienza!
La nostra corsa più costosa è stata di 100K ore GPU (la stessa quantità di Deepseek-R1-zero ma su GB200).
Una scoperta qui è stata che una volta che abbiamo un algoritmo RL scalabile, la scalabilità del calcolo RL diventa prevedibile (ad esempio, abbiamo estrapolato a 3x il calcolo per un 17Bx16 MoE da 16k ore GPU a 50k ore).
L'altra è che quando si confrontano gli algoritmi, abbraccia la lezione amara (cerca di prevedere quanto bene si scalerebbe con il calcolo utilizzando una data curva di prestazioni, invece di considerare solo le prestazioni a un calcolo fisso).
La maggior parte dei trucchi algoritmici in un metodo RL scalabile non cambia le prestazioni asintotiche, ma cose come la dimensione del modello, la lunghezza del contesto, la dimensione del batch e i dati sì.
Ci sono ovviamente molte scelte di design in RL, quindi non pensiamo che la ricetta ScaleRL sia la fine della storia.
Principali
Ranking
Preferiti
