NVIDIA 的一篇精彩論文。 訓練通用推理模型與強化學習(RL)是複雜的。 不同領域的回應長度和驗證時間差異巨大。數學使用快速的符號驗證。代碼需要慢速的執行驗證。對齊需要獎勵模型分數。 將這些異質提示混合在一起使基礎設施變得複雜,減慢訓練速度,並使超參數調整變得困難。 這項新研究介紹了 Cascade RL,一個在不同領域之間順序訓練模型的框架,而不是將所有內容混合在一起。首先是對齊的 RLHF,然後是遵循指令的 RL,接著是數學 RL,再來是代碼 RL,最後是軟體工程 RL。 這種順序方法對災難性遺忘具有抵抗力。在 RL 中,模型生成自己的經驗,因此如果舊行為仍然與獎勵相關,它們將保持不變。與監督學習不同,監督學習中先前數據會消失,而 RL 優化的是累積獎勵,而不是擬合精確目標。 作為前置步驟的 RLHF,實際上通過減少冗長和重複,顯著提升了推理能力,遠超過單純的偏好優化。隨後的領域特定 RL 階段很少會降低早期的表現,甚至可能改善它。 以下是結果: 他們的 14B 模型在 LiveCodeBench v5/v6/Pro 上超越了自己的 SFT 教師 DeepSeek-R1-0528(671B)。Nemotron-Cascade-8B 在 LiveCodeBench v6 上達到 71.1%,與 DeepSeek-R1-0528 的 73.3% 相當,儘管其體積小 84 倍。該 14B 模型在 IOI 2025 中獲得了銀牌表現。 他們還展示了統一推理模型可以在思考和非思考模式下有效運作,縮小了與專用思考模型的差距,同時保持所有內容在單一模型中。 論文: 在我們的學院學習如何建立有效的 AI 代理: