Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Artigo incrível da NVIDIA.
Treinar modelos de raciocínio de propósito geral com RL é complicado.
Diferentes domínios têm comprimentos de resposta e tempos de verificação muito diferentes. Matemática usa verificação simbólica rápida. Código requer verificação baseada em execução lenta. Alinhamento precisa de pontuações de modelo de recompensa.
Misturar todos esses prompts heterogêneos torna a infraestrutura complexa, desacelera o treinamento e dificulta a afinação de hiperparâmetros.
Esta nova pesquisa introduz o Cascade RL, uma estrutura que treina modelos sequencialmente através de domínios em vez de misturar tudo. Primeiro RLHF para alinhamento, depois RL de seguimento de instruções, depois RL de matemática, depois RL de código, depois RL de engenharia de software.
Esta abordagem sequencial é resistente ao esquecimento catastrófico. No RL, o modelo gera sua própria experiência, então comportamentos antigos permanecem se forem relevantes para a recompensa. Ao contrário do aprendizado supervisionado, onde dados anteriores desaparecem, o RL otimiza a recompensa cumulativa em vez de se ajustar a alvos exatos.
RLHF, como um pré-passo, na verdade aumenta a capacidade de raciocínio muito além da mera otimização de preferências, reduzindo a verbosidade e a repetição. Estágios subsequentes de RL específicos de domínio raramente degradam o desempenho anterior e podem até melhorá-lo.
Aqui estão os resultados:
O modelo de 14B supera seu próprio professor SFT, DeepSeek-R1-0528 (671B), no LiveCodeBench v5/v6/Pro. O Nemotron-Cascade-8B alcança 71.1% no LiveCodeBench v6, comparável ao DeepSeek-R1-0528 com 73.3%, apesar de ser 84x menor. O modelo de 14B alcançou desempenho de medalha de prata no IOI 2025.
Eles também demonstram que modelos de raciocínio unificados podem operar efetivamente em modos de pensamento e não-pensamento, fechando a lacuna com modelos de pensamento dedicados enquanto mantêm tudo em um único modelo.
Artigo:
Aprenda a construir agentes de IA eficazes em nossa academia:

Top
Classificação
Favoritos
