🚀 Vă prezentăm Nemotron-Cascade! 🚀 Suntem încântați să lansăm Nemotron-Cascade, o familie de modele de raționament cu scop general antrenate cu învățare prin întărire în cascadă, pe domenii (Cascade RL), oferind performanțe de top pe o gamă largă de benchmark-uri. 💻 Forță de codare După RL, modelul nostru 14B: • Depășește DeepSeek-R1-0528 (671B) pe LiveCodeBench v5/v6/Pro. • Obține medalia de argint la IOI 2025 🥈. • Atinge un pass@1 de 43,1% la SWE-Bench Verified și 53,8% la scalarea pe durata testului. 🧠 Ce este Cascade RL? În loc să amestece prompturi eterogene între domenii, Cascade RL se antrenează secvențial, domeniu cu domeniu, ceea ce reduce complexitatea inginerească, reduce latențele eterogene de verificare și permite curricula specifice domeniului și reglajarea personalizată a hiperparametrilor. ✨ Perspective cheie Folosirea RLHF pentru aliniere ca pre-pas crește dramatic raționamentul complex — mult dincolo de optimizarea preferințelor. Etapele RLVR ulterioare pe domenii rareori afectează performanța benchmark-ului obținută în domeniile anterioare și chiar o pot îmbunătăți, așa cum este ilustrat în figura următoare. 🤗 Modele și date 🔥 de antrenament 👉 📄 Raport tehnic cu rețete detaliate de instruire și date 👉