🚀 Představujeme Nemotron-Cascade! 🚀 S nadšením uvádíme Nemotron-Cascade, rodinu obecných modelů uvažování trénovaných pomocí kaskádového doménového posilovacího učení (Cascade RL), které přinášejí špičkový výkon v široké škále benchmarků. 💻 Programátorská síla Po RL náš model 14B: • Překonává DeepSeek-R1-0528 (671B) na LiveCodeBench v5/v6/Pro. • Dosaženo stříbrné medaile na IOI 2025 🥈. • Dosahuje 43,1 % pass@1 na SWE-Bench Verified a 53,8 % na škálování podle testovacího času. 🧠 Co je Cascade RL? Místo míchání heterogenních promptů napříč doménami trénuje Cascade RL sekvenčně, doména po doméně, což snižuje složitost inženýrství, zmírňuje heterogenní latence ověřování a umožňuje doménově specifické osnovy a přizpůsobené ladění hyperparametrů. ✨ Klíčový poznatek Použití RLHF pro zarovnání jako předkrok výrazně zvyšuje složité uvažování – daleko za hranice optimalizace preferencí. Následující úrovně RLVR podle domén jen zřídka poškodí výkon benchmarku dosažený v dřívějších doménách a mohou jej dokonce zlepšit, jak je znázorněno na následujícím obrázku. 🤗 Modely a tréninková data 🔥 👉 📄 Technická zpráva s podrobnými trénačními a datovými recepty 👉