Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Vi introduserer Nemotron-Cascade! 🚀
Vi er begeistret for å lansere Nemotron-Cascade, en familie av generelle resonnementsmodeller trent med kaskadert, domenevis forsterkningslæring (Cascade RL), som leverer ytelse i beste klasse på tvers av et bredt spekter av benchmarks.
💻 Kodingskraft
Etter RL, vår 14B-modell:
• Overgår DeepSeek-R1-0528 (671B) på LiveCodeBench v5/v6/Pro.
• Oppnår sølvmedalje på IOI 2025 🥈.
• Oppnår 43,1 % pass@1 på SWE-Bench Verified, og 53,8 % med testtidsskalering.
🧠 Hva er Cascade RL?
I stedet for å blande heterogene prompts på tvers av domener, trener Cascade RL sekvensielt, domene for domene, noe som reduserer ingeniørkompleksitet, reduserer heterogene verifikasjonsforsinkelser og muliggjør domenespesifikke læreplaner og skreddersydd hyperparameterjustering.
✨ Viktig innsikt
Å bruke RLHF for justering som et fortrinn øker kompleks resonnement dramatisk—langt utover preferanseoptimalisering. Påfølgende domenevise RLVR-trinn skader sjelden benchmark-ytelsen oppnådd i tidligere domener og kan til og med forbedre den, som illustrert i figuren nedenfor.
🤗 Modeller og treningsdata 🔥
👉
📄 Teknisk rapport med detaljert opplæring og dataoppskrifter
👉

Topp
Rangering
Favoritter
