NVIDIA 的一篇精彩论文。 使用强化学习训练通用推理模型是复杂的。 不同领域的响应长度和验证时间差异巨大。数学使用快速的符号验证。代码需要慢速的基于执行的验证。对齐需要奖励模型分数。 将所有这些异构提示混合在一起使基础设施复杂,减慢训练速度,并使超参数调整变得困难。 这项新研究引入了 Cascade RL,一个在不同领域之间顺序训练模型的框架,而不是将所有内容混合在一起。首先是用于对齐的 RLHF,然后是遵循指令的 RL,然后是数学 RL,然后是代码 RL,最后是软件工程 RL。 这种顺序方法对灾难性遗忘具有抵抗力。在强化学习中,模型生成自己的经验,因此如果旧行为仍然与奖励相关,则会保留。与监督学习不同,后者的先前数据会消失,强化学习优化的是累积奖励,而不是拟合精确目标。 作为预步骤的 RLHF,通过减少冗长和重复,实际上大大提升了推理能力,远超单纯的偏好优化。后续的领域特定 RL 阶段很少会降低早期性能,甚至可能会改善它。 以下是结果: 他们的 14B 模型在 LiveCodeBench v5/v6/Pro 上超越了自己的 SFT 教师 DeepSeek-R1-0528(671B)。Nemotron-Cascade-8B 在 LiveCodeBench v6 上达到了 71.1%,与 DeepSeek-R1-0528 的 73.3% 相当,尽管其规模小了 84 倍。该 14B 模型在 IOI 2025 中获得了银牌表现。 他们还展示了统一推理模型可以在思考和非思考模式下有效运作,缩小了与专用思考模型的差距,同时将所有内容保持在单一模型中。 论文: 在我们的学院学习如何构建有效的 AI 代理: