🚀 Introductie van Nemotron-Cascade! 🚀 We zijn verheugd om Nemotron-Cascade te lanceren, een familie van algemene redeneermodellen die zijn getraind met cascaded, domeinspecifieke reinforcement learning (Cascade RL), die de beste prestaties levert in een breed scala aan benchmarks. 💻 Codering krachtpatser Na RL, ons 14B model: • Overtreft DeepSeek-R1-0528 (671B) op LiveCodeBench v5/v6/Pro. • Bereikt zilveren medaille prestaties op IOI 2025 🥈. • Bereikt een 43,1% pass@1 op SWE-Bench Verified, en 53,8% met test-tijd schaling. 🧠 Wat is Cascade RL? In plaats van heterogene prompts over domeinen te mengen, traint Cascade RL sequentieel, domein voor domein, wat de engineeringcomplexiteit vermindert, heterogene verificatie-latenties verlicht en domeinspecifieke curricula en op maat gemaakte hyperparameterafstemming mogelijk maakt. ✨ Belangrijk inzicht Het gebruik van RLHF voor afstemming als een voorafgaande stap verhoogt de complexe redenering dramatisch—verre van voorkeuroptimalisatie. Latere domeinspecifieke RLVR-fases schaden zelden de benchmarkprestaties die in eerdere domeinen zijn behaald en kunnen deze zelfs verbeteren, zoals geïllustreerd in de volgende figuur. 🤗 Modellen & trainingsdata 🔥 👉 📄 Technisch rapport met gedetailleerde trainings- en datarecepten 👉