Deseja criar leis de escala para RL, mas não sabe como escalar? Ou que escalas? Ou o RL escalaria previsivelmente? Apresentamos: A arte de dimensionar a computação de aprendizado por reforço para LLMs