🚀 ネモトロン・カスケードをご紹介します!🚀 私たちは、カスケード型ドメイン別強化学習(Cascade RL)で訓練された汎用推論モデル群のNemotron-Cascadeをリリースできることを大変嬉しく思います。幅広いベンチマークでクラス最高のパフォーマンスを提供します。 💻 コーディングの強豪 RLの後、私たちの14Bモデルは以下の通りです: • LiveCodeBench v5/v6/ProでDeepSeek-R1-0528(671B)を上回る。 ・IOI 2025 🥈で銀メダルを獲得しました。 ・SWE-Bench Verifiedで43.1%のpass@1、テスト時間のスケーリングで53.8%に達します。 🧠 Cascade RLとは何ですか? ドメイン間で異種プロンプトを混在させる代わりに、Cascade RLはドメインごとに逐次トレーニングを行い、エンジニアリングの複雑さを軽減し、異種検証の遅延を軽減し、ドメイン固有のカリキュラムやカスタマイズされたハイパーパラメータ調整を可能にします。 ✨ 重要な洞察 RLHFをアライメントの前段階として用いることで、複雑な推論能力が劇的に向上し、優先最適化をはるかに超えています。その後のドメインごとのRLVR段階は、以前のドメインで達成されたベンチマーク性能をほとんど損なうことはなく、むしろ改善される可能性があります(以下の図に示されています)。 🤗 モデルとトレーニングデータ 🔥 👉 📄 詳細なトレーニングとデータレシピを含む技術報告書 👉