🚀 Memperkenalkan Nemotron-Cascade! 🚀 Kami sangat senang merilis Nemotron-Cascade, keluarga model penalaran tujuan umum yang dilatih dengan pembelajaran penguatan berdasarkan domain bertingkat (Cascade RL), memberikan kinerja terbaik di kelasnya di berbagai tolok ukur. 💻 Pembangkit tenaga pengkodean Setelah RL, model 14B kami: • Melampaui DeepSeek-R1-0528 (671B) di LiveCodeBench v5/v6/Pro. • Mencapai kinerja medali perak di IOI 2025 🥈 . • Mencapai pass@1 43,1% pada SWE-Bench Verified, dan 53,8% dengan penskalaan waktu pengujian. 🧠 Apa itu Cascade RL? Alih-alih mencampur perintah heterogen di seluruh domain, Cascade RL melatih secara berurutan, domain demi domain, yang mengurangi kompleksitas teknik, mengurangi latensi verifikasi heterogen, dan memungkinkan kurikulum khusus domain dan penyetelan hiperparameter yang disesuaikan. ✨ Wawasan utama Menggunakan RLHF untuk penyelarasan sebagai pra-langkah secara dramatis meningkatkan penalaran yang kompleks—jauh melampaui pengoptimalan preferensi. Tahapan RLVR berdasarkan domain berikutnya jarang merusak kinerja tolok ukur yang dicapai di domain sebelumnya dan bahkan dapat meningkatkannya, seperti yang diilustrasikan pada gambar berikut. 🤗 Model & data 🔥 pelatihan 👉 📄 Laporan teknis dengan pelatihan terperinci dan resep data 👉