🚀 ¡Presentamos Nemotron-Cascade! 🚀 Estamos encantados de lanzar Nemotron-Cascade, una familia de modelos de razonamiento de propósito general entrenados con aprendizaje por refuerzo en cascada y dominio (Cascade RL), que ofrece un rendimiento de primer nivel en una amplia gama de benchmarks. 💻 Potencia de codificación Después de RL, nuestro modelo 14B: • Supera a DeepSeek-R1-0528 (671B) en LiveCodeBench v5/v6/Pro. • Logra la medalla de plata en el IOI 2025 🥈. • Alcanza un pass@1 del 43,1% en SWE-Bench Verified y del 53,8% en la escala durante el examen. 🧠 ¿Qué es Cascade RL? En lugar de mezclar prompts heterogéneos entre dominios, Cascade RL entrena secuencialmente, dominio por dominio, lo que reduce la complejidad de la ingeniería, mitiga latencias de verificación heterogéneas y permite currículos específicos de dominio y ajuste de hiperparámetros personalizado. ✨ Información clave Usar RLHF para alineación como pre-paso potencia drásticamente el razonamiento complejo, mucho más allá de la optimización por preferencias. Las etapas RLVR posteriores por dominio rara vez perjudican el rendimiento de benchmark alcanzado en dominios anteriores e incluso pueden mejorarlo, como se ilustra en la siguiente figura. 🤗 Modelos y datos 🔥 de entrenamiento 👉 📄 Informe técnico con entrenamiento detallado y recetas de datos 👉