一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

NVIDIA 的一篇精彩論文。訓練通用推理模型與強化學習（RL）是複雜的。不同領域的回應長度和驗證時間差異巨大。數學使用快速的符號驗證。代碼需要慢速的執行驗證。對齊需要獎勵模型分數。將這些異質提示混合在一起使基礎設施變得複雜，減慢訓練速度，並使超參數調整變得困難。這項新研究介紹了 Cascade RL，一個在不同領域之間順序訓練模型的框架，而不是將所有內容混合在一起。首先是對齊的 RLHF，然後是遵循指令的 RL，接著是數學 RL，再來是代碼 RL，最後是軟體工程 RL。這種順序方法對災難性遺忘具有抵抗力。在 RL 中，模型生成自己的經驗，因此如果舊行為仍然與獎勵相關，它們將保持不變。與監督學習不同，監督學習中先前數據會消失，而 RL 優化的是累積獎勵，而不是擬合精確目標。作為前置步驟的 RLHF，實際上通過減少冗長和重複，顯著提升了推理能力，遠超過單純的偏好優化。隨後的領域特定 RL 階段很少會降低早期的表現，甚至可能改善它。以下是結果：他們的 14B 模型在 LiveCodeBench v5/v6/Pro 上超越了自己的 SFT 教師 DeepSeek-R1-0528（671B）。Nemotron-Cascade-8B 在 LiveCodeBench v6 上達到 71.1%，與 DeepSeek-R1-0528 的 73.3% 相當，儘管其體積小 84 倍。該 14B 模型在 IOI 2025 中獲得了銀牌表現。他們還展示了統一推理模型可以在思考和非思考模式下有效運作，縮小了與專用思考模型的差距，同時保持所有內容在單一模型中。論文：在我們的學院學習如何建立有效的 AI 代理：