Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Papel de calidad de NVIDIA.
Entrenar modelos de razonamiento de propósito general con RL es complicado.
Diferentes dominios tienen longitudes de respuesta y tiempos de verificación muy distintos. Las matemáticas utilizan una verificación simbólica rápida. El código requiere una verificación lenta basada en la ejecución. La alineación necesita puntuaciones en el modelo de recompensa.
Mezclar todos estos prompts heterogéneos hace que la infraestructura sea compleja, ralentiza el entrenamiento y dificulta la optimización de los hiperparámetros.
Esta nueva investigación introduce Cascade RL, un marco que entrena modelos secuencialmente entre dominios en lugar de mezclarlo todo. Primero RLHF para alineación, luego RL siguiendo instrucciones, luego RL de matemáticas, luego RL de código y finalmente RL de ingeniería de software.
Este enfoque secuencial es resistente a los olvidos catastróficos. En RL, el modelo genera su propia experiencia, por lo que los comportamientos antiguos permanecen si siguen siendo relevantes para la recompensa. A diferencia del aprendizaje supervisado, donde los datos previos desaparecen, la RL optimiza la recompensa acumulativa en lugar de ajustar objetivos exactos.
RLHF, como pre-paso, en realidad mejora la capacidad de razonamiento mucho más allá de la mera optimización por preferencias al reducir la verbosidad y la repetición. Las etapas RL específicas de dominio posteriores rara vez degradan el rendimiento anterior e incluso pueden mejorarlo.
Aquí están los resultados:
Su modelo 14B supera a su propio profesor SFT, DeepSeek-R1-0528 (671B), en LiveCodeBench v5/v6/Pro. Nemotron-Cascade-8B alcanza un 71,1% en LiveCodeBench v6, comparable a DeepSeek-R1-0528 con un 73,3% a pesar de ser 84 veces más pequeño. El modelo 14B logró la medalla de plata en el IOI 2025.
También demuestran que los modelos de razonamiento unificado pueden operar eficazmente tanto en modos de pensamiento como no pensativos, cerrando la brecha con modelos de pensamiento dedicados mientras mantienen todo en un solo modelo.
Papel:
Aprende a crear agentes de IA efectivos en nuestra academia:

Populares
Ranking
Favoritas
