🚀 Знайомтеся з Nemotron-Cascade! 🚀 Ми раді випускати Nemotron-Cascade — сімейство універсальних моделей мислення, навчених каскадному підкріпленому навчанню за доменами (Cascade RL), що забезпечує найкращі у своєму класі продуктивність у широкому спектрі бенчмарків. 💻 Потужний інструмент у програмуванні Після RL наша модель 14B: • Перевершує DeepSeek-R1-0528 (671B) на LiveCodeBench v5/v6/Pro. • Досяг срібної медалі на IOI 2025 🥈. • Досягає 43,1% pass@1 на SWE-Bench Verified і 53,8% при масштабуванні часу тестування. 🧠 Що таке Cascade RL? Замість змішування гетерогенних завдань між доменами, Cascade RL навчається послідовно, область за доменом, що знижує інженерну складність, зменшує гетерогенні затримки верифікації та дозволяє створювати специфічні для домену навчальні програми та налаштування гіперпараметрів. ✨ Ключова інсайтність Використання RLHF для вирівнювання як попереднього кроку суттєво покращує складне мислення — далеко за межами оптимізації уподобань. Наступні етапи RLVR за доменами рідко впливають на результати бенчмарків, досягнутих у попередніх доменах, і навіть можуть її покращити, як показано на наступному рисунку. 🤗 Моделі та навчальні дані 🔥 👉 📄 Технічний звіт з детальними рецептами навчання та даних 👉