🚀 Представляем Nemotron-Cascade! 🚀 Мы рады представить Nemotron-Cascade, семью универсальных моделей рассуждений, обученных с использованием каскадного, доменно-ориентированного обучения с подкреплением (Cascade RL), обеспечивающего выдающиеся результаты по широкому спектру тестов. 💻 Мощный инструмент для кодирования После RL наша модель на 14B: • Превосходит DeepSeek-R1-0528 (671B) на LiveCodeBench v5/v6/Pro. • Достигает серебряной медали на IOI 2025 🥈. • Показывает 43.1% pass@1 на SWE-Bench Verified и 53.8% с масштабированием во время тестирования. 🧠 Что такое Cascade RL? Вместо смешивания гетерогенных подсказок по доменам, Cascade RL обучается последовательно, по доменам, что снижает инженерную сложность, уменьшает задержки верификации и позволяет создавать курсы, специфичные для домена, и настраивать гиперпараметры. ✨ Ключевая идея Использование RLHF для выравнивания в качестве предварительного шага значительно улучшает сложное рассуждение — гораздо больше, чем оптимизация предпочтений. Последующие этапы RLVR по доменам редко ухудшают производительность на тестах, достигнутую на предыдущих доменах, и могут даже улучшить её, как показано на следующем рисунке. 🤗 Модели и обучающие данные 🔥 👉 📄 Технический отчет с подробными рецептами обучения и данных 👉