一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

好吧，不想当黑子，但这篇关于 $4.2M RL 扩展的论文似乎有点被过度炒作了？这不仅是论文本身，还有推特上的发帖者们更是如此。从初步阅读来看，这似乎又是一组对 GRPO 的调整，只不过这次是在不同的计算预算上进行训练，但 - 关键是 - 仅在相对较小的模型（Llama 3 8B 和 Llama 4 Scout）上，以及一个完全由数学问题组成的数据集。主要的新颖之处在于他们为奖励图拟合了一条曲线，这，呃，算是酷吧？更有趣的是代码库，只有一个文件，围绕着 `from scipy.optimize import curve_fit`。我支持更有原则的 RL 研究，但在单一环境中几乎无法宣称扩展法则，因为 RL 训练环境可以说比预训练数据集更为多样。此外，我仍然有一种隐约的怀疑（而且没有预算去验证），认为在超大模型（>100B？）上进行 RL 训练与在小型模型上是质的不同。 LLM 扩展法则的伟大之处在于，对于给定的预算，你可以事先估计一些超参数，从而节省超参数猜测的时间。我很难在这里找到任何类似的见解。但嘿，它用了 400k GPU 小时。