¿Desea construir leyes de escala para RL pero no está seguro de cómo escalar? ¿O qué escalas? ¿O RL incluso escalaría de manera predecible? Presentamos: El arte de escalar la computación de aprendizaje por refuerzo para LLM