トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NVIDIAのバンガー論文です。
汎用推論モデルを強化学習で訓練するのは複雑です。
ドメインによって応答時間や検証時間は大きく異なります。数学は高速記号検証を用います。コードは実行ベースの検証を遅く要求します。アライメントには報酬モデルのスコアが必要です。
これらすべての異種的なプロンプトを混ぜ合わせるとインフラが複雑になり、トレーニングが遅くなり、ハイパーパラメータの調整が難しくなります。
この新しい研究では、すべてを混同するのではなく、ドメインごとに順次トレーニングするフレームワーク「Cascade RL」を導入します。まずはアライメントのためのRLHF、次に命令従順RL、数学RL、コードRL、そしてソフトウェアエンジニアリングRL。
この連続的なアプローチは、壊滅的な忘却に強いです。強化学習では、モデルは独自の経験を生成するため、報酬に関連する古い行動は残ります。教師あり学習とは異なり、過去のデータが消えるのに対し、強化学習は正確な目標を当てはめるのではなく、累積報酬を最適化します。
RLHFはプレステップとして、冗長さや反復を減らすことで、単なる好み最適化を超えて推論能力を大きく向上させます。その後のドメイン特有の強化学習段階は、以前の性能をほとんど劣化させず、むしろ向上させることさえあります。
結果は以下の通りです:
彼らの14Bモデルは、LiveCodeBench v5/v6/Proで同社のSFT教師であるDeepSeek-R1-0528(671B)を上回る性能を発揮しています。Nemotron-Cascade-8BはLiveCodeBench v6で71.1%を達成し、DeepSeek-R1-0528と同等の73.3%を達成していますが、サイズは84倍です。14BモデルはIOI 2025で銀メダルを獲得しました。
また、統合推論モデルが思考モードと非思考モードの両方で効果的に機能し、専用の思考モデルとギャップを埋めつつ、すべてを単一のモデルに収めることを示しています。
論文:
私たちのアカデミーで効果的なAIエージェントの構築方法を学びましょう:

トップ
ランキング
お気に入り
