Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Vă prezentăm Nemotron-Cascade! 🚀
Suntem încântați să lansăm Nemotron-Cascade, o familie de modele de raționament cu scop general antrenate cu învățare prin întărire în cascadă, pe domenii (Cascade RL), oferind performanțe de top pe o gamă largă de benchmark-uri.
💻 Forță de codare
După RL, modelul nostru 14B:
• Depășește DeepSeek-R1-0528 (671B) pe LiveCodeBench v5/v6/Pro.
• Obține medalia de argint la IOI 2025 🥈.
• Atinge un pass@1 de 43,1% la SWE-Bench Verified și 53,8% la scalarea pe durata testului.
🧠 Ce este Cascade RL?
În loc să amestece prompturi eterogene între domenii, Cascade RL se antrenează secvențial, domeniu cu domeniu, ceea ce reduce complexitatea inginerească, reduce latențele eterogene de verificare și permite curricula specifice domeniului și reglajarea personalizată a hiperparametrilor.
✨ Perspective cheie
Folosirea RLHF pentru aliniere ca pre-pas crește dramatic raționamentul complex — mult dincolo de optimizarea preferințelor. Etapele RLVR ulterioare pe domenii rareori afectează performanța benchmark-ului obținută în domeniile anterioare și chiar o pot îmbunătăți, așa cum este ilustrat în figura următoare.
🤗 Modele și date 🔥 de antrenament
👉
📄 Raport tehnic cu rețete detaliate de instruire și date
👉

Limită superioară
Clasament
Favorite
