DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

🚀 Apresentando Nemotron-Cascade! 🚀 Estamos muito felizes em lançar o Nemotron-Cascade, uma família de modelos de raciocínio de uso geral treinados com aprendizado por reforço em cascata por domínio (Cascade RL), entregando desempenho de primeira classe em uma ampla gama de benchmarks. 💻 Potência de codificação Depois do RL, nosso modelo 14B: • Supera o DeepSeek-R1-0528 (671B) no LiveCodeBench v5/v6/Pro. • Conquista a medalha de prata no IOI 2025 🥈. • Atinge um pass@1 de 43,1% no SWE-Bench Verified e 53,8% na escala de tempo de teste. 🧠 O que é Cascade RL? Em vez de misturar prompts heterogêneos entre domínios, o Cascade RL treina sequencialmente, domínio por domínio, o que reduz a complexidade de engenharia, mitiga latências de verificação heterogêneas e possibilita currículos específicos de domínio e ajuste de hiperparâmetros personalizado. ✨ Principais insights Usar RLHF para alinhamento como pré-etapa reforça dramaticamente o raciocínio complexo — muito além da otimização por preferência. Estágios subsequentes de RLVR por domínio raramente prejudicam o desempenho de benchmark alcançado em domínios anteriores e podem até melhorá-lo, como ilustrado na figura a seguir. 🤗 Modelos e dados 🔥 de treinamento 👉 📄 Relatório técnico com treinamentos detalhados e receitas de dados 👉

Melhores

Classificação

Favoritos