好吧,不想当黑子,但这篇关于 $4.2M RL 扩展的论文似乎有点被过度炒作了?这不仅是论文本身,还有推特上的发帖者们更是如此。 从初步阅读来看,这似乎又是一组对 GRPO 的调整,只不过这次是在不同的计算预算上进行训练,但 - 关键是 - 仅在相对较小的模型(Llama 3 8B 和 Llama 4 Scout)上,以及一个完全由数学问题组成的数据集。 主要的新颖之处在于他们为奖励图拟合了一条曲线,这,呃,算是酷吧? 更有趣的是代码库,只有一个文件,围绕着 `from scipy.optimize import curve_fit`。 我支持更有原则的 RL 研究,但在单一环境中几乎无法宣称扩展法则,因为 RL 训练环境可以说比预训练数据集更为多样。此外,我仍然有一种隐约的怀疑(而且没有预算去验证),认为在超大模型(>100B?)上进行 RL 训练与在小型模型上是质的不同。 LLM 扩展法则的伟大之处在于,对于给定的预算,你可以事先估计一些超参数,从而节省超参数猜测的时间。我很难在这里找到任何类似的见解。 但嘿,它用了 400k GPU 小时。