一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

NVIDIA 的一篇精彩论文。使用强化学习训练通用推理模型是复杂的。不同领域的响应长度和验证时间差异巨大。数学使用快速的符号验证。代码需要慢速的基于执行的验证。对齐需要奖励模型分数。将所有这些异构提示混合在一起使基础设施复杂，减慢训练速度，并使超参数调整变得困难。这项新研究引入了 Cascade RL，一个在不同领域之间顺序训练模型的框架，而不是将所有内容混合在一起。首先是用于对齐的 RLHF，然后是遵循指令的 RL，然后是数学 RL，然后是代码 RL，最后是软件工程 RL。这种顺序方法对灾难性遗忘具有抵抗力。在强化学习中，模型生成自己的经验，因此如果旧行为仍然与奖励相关，则会保留。与监督学习不同，后者的先前数据会消失，强化学习优化的是累积奖励，而不是拟合精确目标。作为预步骤的 RLHF，通过减少冗长和重复，实际上大大提升了推理能力，远超单纯的偏好优化。后续的领域特定 RL 阶段很少会降低早期性能，甚至可能会改善它。以下是结果：他们的 14B 模型在 LiveCodeBench v5/v6/Pro 上超越了自己的 SFT 教师 DeepSeek-R1-0528（671B）。Nemotron-Cascade-8B 在 LiveCodeBench v6 上达到了 71.1%，与 DeepSeek-R1-0528 的 73.3% 相当，尽管其规模小了 84 倍。该 14B 模型在 IOI 2025 中获得了银牌表现。他们还展示了统一推理模型可以在思考和非思考模式下有效运作，缩小了与专用思考模型的差距，同时将所有内容保持在单一模型中。论文：在我们的学院学习如何构建有效的 AI 代理：