Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Представляем Nemotron-Cascade! 🚀
Мы рады представить Nemotron-Cascade, семью универсальных моделей рассуждений, обученных с использованием каскадного, доменно-ориентированного обучения с подкреплением (Cascade RL), обеспечивающего выдающиеся результаты по широкому спектру тестов.
💻 Мощный инструмент для кодирования
После RL наша модель на 14B:
• Превосходит DeepSeek-R1-0528 (671B) на LiveCodeBench v5/v6/Pro.
• Достигает серебряной медали на IOI 2025 🥈.
• Показывает 43.1% pass@1 на SWE-Bench Verified и 53.8% с масштабированием во время тестирования.
🧠 Что такое Cascade RL?
Вместо смешивания гетерогенных подсказок по доменам, Cascade RL обучается последовательно, по доменам, что снижает инженерную сложность, уменьшает задержки верификации и позволяет создавать курсы, специфичные для домена, и настраивать гиперпараметры.
✨ Ключевая идея
Использование RLHF для выравнивания в качестве предварительного шага значительно улучшает сложное рассуждение — гораздо больше, чем оптимизация предпочтений. Последующие этапы RLVR по доменам редко ухудшают производительность на тестах, достигнутую на предыдущих доменах, и могут даже улучшить её, как показано на следующем рисунке.
🤗 Модели и обучающие данные 🔥
👉
📄 Технический отчет с подробными рецептами обучения и данных
👉

Топ
Рейтинг
Избранное
