🚀 Vi presenterar Nemotron-Cascade! 🚀 Vi är glada över att kunna släppa Nemotron-Cascade, en familj av allmänna resonemangsmodeller tränade med kaskad, domänvis förstärkningsinlärning (Cascade RL), som levererar prestanda i klassen över en rad olika benchmarks. 💻 Kodningskraftverk Efter RL är vår 14B-modell: • Överträffar DeepSeek-R1-0528 (671B) på LiveCodeBench v5/v6/Pro. • Uppnådde silvermedalj vid IOI 2025 🥈. • Uppnår 43,1 % pass@1 på SWE-Bench Verified, och 53,8 % med testtidsskalning. 🧠 Vad är Cascade RL? Istället för att blanda heterogena prompts över domäner tränar Cascade RL sekventiellt, domän för domän, vilket minskar ingenjörskomplexiteten, mildrar heterogena verifieringslatenser och möjliggör domänspecifika läroplaner och anpassad hyperparameterjustering. ✨ Viktiga insikter Att använda RLHF för justering som ett försteg ökar komplext resonemang dramatiskt—långt bortom preferensoptimering. Efterföljande domänvisa RLVR-steg skadar sällan benchmarkprestandan som uppnåtts i tidigare domäner och kan till och med förbättra den, vilket illustreras i följande figur. 🤗 Modeller och träningsdata 🔥 👉 📄 Teknisk rapport med detaljerad utbildning och datarecept 👉