Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Papel excelente da NVIDIA.
Treinar modelos de raciocínio de uso geral com RL é complicado.
Domínios diferentes têm tempos de resposta e verificação muito diferentes. A matemática usa verificação simbólica rápida. O código requer verificação lenta baseada em execução. O alinhamento precisa de pontuações do modelo de recompensa.
Misturar todos esses prompts heterogêneos torna a infraestrutura complexa, retarda o treinamento e dificulta o ajuste de hiperparâmetros.
Essa nova pesquisa introduz o Cascade RL, um framework que treina modelos sequencialmente entre domínios, em vez de misturar tudo. Primeiro RLHF para alinhamento, depois RL seguindo instruções, depois RL de matemática, depois RL de código, depois RL de engenharia de software.
Essa abordagem sequencial é resistente a esquecimentos catastróficos. Em RL, o modelo gera sua própria experiência, então comportamentos antigos permanecem se permanecerem relevantes para recompensas. Diferente do aprendizado supervisionado, onde os dados anteriores desaparecem, o RL otimiza a recompensa cumulativa em vez de se ajustar a metas exatas.
O RLHF, como um pré-passo, na verdade aumenta a capacidade de raciocínio muito além da mera otimização por preferências, ao reduzir a verbosidade e a repetição. Estágios RL específicos de domínio subsequentes raramente degradam o desempenho inicial e podem até melhorá-lo.
Aqui estão os resultados:
O modelo 14B deles supera seu próprio professor SFT, DeepSeek-R1-0528 (671B), no LiveCodeBench v5/v6/Pro. O Nemotron-Cascade-8B alcança 71,1% no LiveCodeBench v6, comparável ao DeepSeek-R1-0528 com 73,3%, apesar de ser 84 vezes menor. O modelo 14B conquistou a medalha de prata no IOI 2025.
Eles também demonstram que modelos de raciocínio unificado podem operar efetivamente tanto em modos de pensamento quanto de não-pensamento, fechando a lacuna com modelos de pensamento dedicados enquanto mantêm tudo em um único modelo.
Papel:
Aprenda a construir Agentes de IA eficazes em nossa academia:

Melhores
Classificação
Favoritos
