トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 ネモトロン・カスケードをご紹介します!🚀
私たちは、カスケード型ドメイン別強化学習(Cascade RL)で訓練された汎用推論モデル群のNemotron-Cascadeをリリースできることを大変嬉しく思います。幅広いベンチマークでクラス最高のパフォーマンスを提供します。
💻 コーディングの強豪
RLの後、私たちの14Bモデルは以下の通りです:
• LiveCodeBench v5/v6/ProでDeepSeek-R1-0528(671B)を上回る。
・IOI 2025 🥈で銀メダルを獲得しました。
・SWE-Bench Verifiedで43.1%のpass@1、テスト時間のスケーリングで53.8%に達します。
🧠 Cascade RLとは何ですか?
ドメイン間で異種プロンプトを混在させる代わりに、Cascade RLはドメインごとに逐次トレーニングを行い、エンジニアリングの複雑さを軽減し、異種検証の遅延を軽減し、ドメイン固有のカリキュラムやカスタマイズされたハイパーパラメータ調整を可能にします。
✨ 重要な洞察
RLHFをアライメントの前段階として用いることで、複雑な推論能力が劇的に向上し、優先最適化をはるかに超えています。その後のドメインごとのRLVR段階は、以前のドメインで達成されたベンチマーク性能をほとんど損なうことはなく、むしろ改善される可能性があります(以下の図に示されています)。
🤗 モデルとトレーニングデータ 🔥
👉
📄 詳細なトレーニングとデータレシピを含む技術報告書
👉

トップ
ランキング
お気に入り
