热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
NVIDIA 的一篇精彩论文。
使用强化学习训练通用推理模型是复杂的。
不同领域的响应长度和验证时间差异巨大。数学使用快速的符号验证。代码需要慢速的基于执行的验证。对齐需要奖励模型分数。
将所有这些异构提示混合在一起使基础设施复杂,减慢训练速度,并使超参数调整变得困难。
这项新研究引入了 Cascade RL,一个在不同领域之间顺序训练模型的框架,而不是将所有内容混合在一起。首先是用于对齐的 RLHF,然后是遵循指令的 RL,然后是数学 RL,然后是代码 RL,最后是软件工程 RL。
这种顺序方法对灾难性遗忘具有抵抗力。在强化学习中,模型生成自己的经验,因此如果旧行为仍然与奖励相关,则会保留。与监督学习不同,后者的先前数据会消失,强化学习优化的是累积奖励,而不是拟合精确目标。
作为预步骤的 RLHF,通过减少冗长和重复,实际上大大提升了推理能力,远超单纯的偏好优化。后续的领域特定 RL 阶段很少会降低早期性能,甚至可能会改善它。
以下是结果:
他们的 14B 模型在 LiveCodeBench v5/v6/Pro 上超越了自己的 SFT 教师 DeepSeek-R1-0528(671B)。Nemotron-Cascade-8B 在 LiveCodeBench v6 上达到了 71.1%,与 DeepSeek-R1-0528 的 73.3% 相当,尽管其规模小了 84 倍。该 14B 模型在 IOI 2025 中获得了银牌表现。
他们还展示了统一推理模型可以在思考和非思考模式下有效运作,缩小了与专用思考模型的差距,同时将所有内容保持在单一模型中。
论文:
在我们的学院学习如何构建有效的 AI 代理:

热门
排行
收藏
