Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Apresentando Nemotron-Cascade! 🚀
Estamos muito felizes em lançar o Nemotron-Cascade, uma família de modelos de raciocínio de uso geral treinados com aprendizado por reforço em cascata por domínio (Cascade RL), entregando desempenho de primeira classe em uma ampla gama de benchmarks.
💻 Potência de codificação
Depois do RL, nosso modelo 14B:
• Supera o DeepSeek-R1-0528 (671B) no LiveCodeBench v5/v6/Pro.
• Conquista a medalha de prata no IOI 2025 🥈.
• Atinge um pass@1 de 43,1% no SWE-Bench Verified e 53,8% na escala de tempo de teste.
🧠 O que é Cascade RL?
Em vez de misturar prompts heterogêneos entre domínios, o Cascade RL treina sequencialmente, domínio por domínio, o que reduz a complexidade de engenharia, mitiga latências de verificação heterogêneas e possibilita currículos específicos de domínio e ajuste de hiperparâmetros personalizado.
✨ Principais insights
Usar RLHF para alinhamento como pré-etapa reforça dramaticamente o raciocínio complexo — muito além da otimização por preferência. Estágios subsequentes de RLVR por domínio raramente prejudicam o desempenho de benchmark alcançado em domínios anteriores e podem até melhorá-lo, como ilustrado na figura a seguir.
🤗 Modelos e dados 🔥 de treinamento
👉
📄 Relatório técnico com treinamentos detalhados e receitas de dados
👉

Melhores
Classificação
Favoritos
