🚀 ¡Presentamos Nemotron-Cascade! 🚀 Estamos emocionados de lanzar Nemotron-Cascade, una familia de modelos de razonamiento de propósito general entrenados con aprendizaje por refuerzo en cascada y por dominios (Cascade RL), que ofrece un rendimiento de primer nivel en una amplia gama de benchmarks. 💻 Potencia de codificación Después de RL, nuestro modelo de 14B: • Supera a DeepSeek-R1-0528 (671B) en LiveCodeBench v5/v6/Pro. • Logra un rendimiento de medalla de plata en IOI 2025 🥈. • Alcanzamos un 43.1% de pass@1 en SWE-Bench Verified, y un 53.8% con escalado en el tiempo de prueba. 🧠 ¿Qué es Cascade RL? En lugar de mezclar prompts heterogéneos entre dominios, Cascade RL entrena secuencialmente, dominio por dominio, lo que reduce la complejidad de ingeniería, mitiga las latencias de verificación heterogéneas y permite currículos específicos de dominio y ajuste de hiperparámetros a medida. ✨ Perspectiva clave Usar RLHF para la alineación como un paso previo aumenta drásticamente el razonamiento complejo, mucho más allá de la optimización de preferencias. Las etapas posteriores de RLVR por dominio rara vez perjudican el rendimiento del benchmark alcanzado en dominios anteriores y pueden incluso mejorarlo, como se ilustra en la figura siguiente. 🤗 Modelos y datos de entrenamiento 🔥 👉 📄 Informe técnico con recetas detalladas de entrenamiento y datos 👉