*cheques chatgpt* Este trabajo cuesta ~4.2 millones de dólares (400K GB200 horas) -- ¡ciencia! Nuestra ejecución más cara fue una hora de GPU de 100K (la misma cantidad que Deepseek-R1-zero pero en GB200). Un hallazgo aquí fue que una vez que tenemos un algoritmo RL escalable, el escalado de cómputo RL se vuelve predecible (por ejemplo, extrapolamos a cómputo 3x para un MoE de 17Bx16 de 16k horas de GPU a 50k horas). La otra es cuando se comparan algoritmos, adopte la amarga lección (intente predecir qué tan bien escalaría con la computación utilizando una curva de rendimiento dada, en lugar de solo el rendimiento en una computación fija). La mayoría de los trucos algorítmicos en un método RL escalable no cambian el rendimiento de la asíntota, pero cosas como el tamaño del modelo, la longitud del contexto, el tamaño del lote y los datos sí lo hacen. Por supuesto, hay muchas opciones de diseño en RL, por lo que no creemos que la receta de ScaleRL sea el final de la historia.