🚀 Apresentando o Nemotron-Cascade! 🚀 Estamos entusiasmados em lançar o Nemotron-Cascade, uma família de modelos de raciocínio de propósito geral treinados com aprendizado por reforço em cascata, específico por domínio (Cascade RL), oferecendo desempenho de ponta em uma ampla gama de benchmarks. 💻 Potência de codificação Após o RL, nosso modelo de 14B: • Supera o DeepSeek-R1-0528 (671B) no LiveCodeBench v5/v6/Pro. • Alcança desempenho de medalha de prata no IOI 2025 🥈. • Atinge 43,1% de pass@1 no SWE-Bench Verified, e 53,8% com escalonamento em tempo de teste. 🧠 O que é Cascade RL? Em vez de misturar prompts heterogêneos entre domínios, o Cascade RL treina sequencialmente, domínio por domínio, o que reduz a complexidade de engenharia, mitiga latências de verificação heterogêneas e permite currículos específicos por domínio e ajuste de hiperparâmetros personalizado. ✨ Insight chave Usar RLHF para alinhamento como um pré-passo aumenta dramaticamente o raciocínio complexo—muito além da otimização de preferências. As subsequentes etapas de RLVR específicas por domínio raramente prejudicam o desempenho do benchmark alcançado em domínios anteriores e podem até melhorá-lo, como ilustrado na figura a seguir. 🤗 Modelos & dados de treinamento 🔥 👉 📄 Relatório técnico com receitas detalhadas de treinamento e dados 👉