¿Deseas construir leyes de escalado para el aprendizaje por refuerzo pero no estás seguro de cómo escalar? ¿O qué escalas? ¿O el aprendizaje por refuerzo siquiera escalaría de manera predecible? Te presentamos: El arte de escalar el cómputo de aprendizaje por refuerzo para LLMs