想要为强化学习建立扩展法则,但不确定如何扩展?或者扩展什么?或者强化学习是否能够可预测地扩展? 我们介绍:大规模强化学习计算在大型语言模型中的艺术