Kertas banger dari NVIDIA. Melatih model penalaran tujuan umum dengan RL itu rumit. Domain yang berbeda memiliki panjang respons dan waktu verifikasi yang sangat berbeda. Matematika menggunakan verifikasi simbolis cepat. Kode memerlukan verifikasi berbasis eksekusi yang lambat. Penyelarasan membutuhkan skor model penghargaan. Memadukan semua petunjuk heterogen ini bersama-sama membuat infrastruktur menjadi rumit, memperlambat pelatihan, dan membuat penyetelan hiperparameter menjadi sulit. Penelitian baru ini memperkenalkan Cascade RL, kerangka kerja yang melatih model secara berurutan di seluruh domain daripada mencampur semuanya bersama-sama. Pertama RLHF untuk penyelarasan, kemudian RL mengikuti instruksi, lalu RL matematika, lalu RL kode, lalu RL rekayasa perangkat lunak. Pendekatan berurutan ini tahan terhadap kelupaan bencana. Di RL, model ini menghasilkan pengalamannya sendiri, sehingga perilaku lama tetap ada jika tetap relevan dengan imbalan. Tidak seperti pembelajaran yang diawasi, di mana data sebelumnya menghilang, RL mengoptimalkan imbalan kumulatif daripada menyesuaikan target yang tepat. RLHF, sebagai pra-langkah, sebenarnya meningkatkan kemampuan penalaran jauh melampaui pengoptimalan preferensi semata-mata dengan mengurangi verbositas dan pengulangan. Tahap RL khusus domain berikutnya jarang menurunkan kinerja sebelumnya dan bahkan dapat meningkatkannya. Berikut hasilnya: Model 14B mereka mengungguli guru SFT-nya sendiri, DeepSeek-R1-0528 (671B), di LiveCodeBench v5/v6/Pro. Nemotron-Cascade-8B mencapai 71,1% pada LiveCodeBench v6, sebanding dengan DeepSeek-R1-0528 sebesar 73,3% meskipun 84x lebih kecil. Model 14B meraih performa medali perak di IOI 2025. Mereka juga menunjukkan bahwa model penalaran terpadu dapat beroperasi secara efektif dalam mode berpikir dan non-berpikir, menutup kesenjangan dengan model berpikir khusus sambil menyimpan semuanya dalam satu model. Kertas: Pelajari cara membangun Agen AI yang efektif di akademi kami: