メインコンテンツへスキップ
マーケット
Meme Pump
トラッカー
シグナル
リーダーボード
スワップ
ポートフォリオ
紹介
さらに見る
商品
DeFi
マケプレ
インサイトハブ
エコシステム案内所
セキュリティ
開発者向け
分散型取引所API
DEX API を調べる
DEX API ドキュメント
API キーを管理する
ブロックチェーンエクスプローラー
X Layer
X Layer について学ぶ
X Layer エクスプローラー
チェーン間取引
開発者向けテクニカルドキュメント
テストネットフォーセット
GitHub
DAppでウォレットを連携する
Boost
X Launch
X Launch に参加してトークンを獲得できます。
プロジェクト特典
タスクを完了してエアドロップを手に入れよう
取引コンペティション
トレンドのトークンを取引して賞金を獲得しよう
報酬センター
ボーナスとエアドロップを受け取る
アラート
言語
通貨
OKX ウォレットをダウンロード
Web3 の詳細
お知らせ
戻る
日本語
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
Norsk (bokmål)
Suomi
Svenska
戻る
戻る
チュートリアル
詳しく知る
サポートセンター
What can I do with Discover
トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
Hosico
-1.28%
USELESS
+7.79%
IKUN
-15.85%
gib
-16.77%
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
Bonk
+0.14%
ALON
-7.27%
LAUNCHCOIN
+10.38%
GOONC
+3.78%
KLED
-10.51%
#
Boop.Fun leading the way with a new launchpad on Solana.
BOOP
+0.11%
Boopa
-2.92%
PORK
-0.39%
Profile
5444E1
5444E1
10月2日 00:24
🚨 NuRL: LLM 推論の境界を押し広げる GRPOはLLMの推論を改善しますが、多くの場合、モデルの「コンフォートゾーン」内にあり、ハードサンプル(合格率0%)は解けないままであり、学習信号はゼロです。NuRLでは、自己生成のヒントでLLMを「ナッジ」することで、モデルの学習ゾーン👉を効果的に拡張し、3つのモデルを使用した6つのベンチマークでpass@1の一貫したゲインを上げ、困難なタスクでpass@1024を上げることを示しています。 重要なポイント: 1⃣GRPOは、モデルが正しく解かない問題から学習することはできませんが、NuRLは自己生成の「ヒント」を使用して、難しい問題を学習可能にします 2⃣抽象的で高レベルのヒントが最も効果的ですが、答えについて明らかにしすぎると、実際にパフォーマンスが低下する可能性があります。 3⃣NuRLは、6つのベンチマークと3つのモデル(GRPOよりも+0.8〜1.8%)でパフォーマンスを向上させ、トレーニング中のロールアウトを減らします 4⃣NuRLは、自己生成されたヒント(外部モデルは不要)で動作し、テスト時のスケーリングと組み合わせると、より大きなゲインを示します 5⃣NuRLは上限を引き上げ、困難なデータセット(GPQA、Date Understandingなど)でpass@1024を最大+7.6%向上させます。 🧵
31.77K
299
トップ
ランキング
お気に入り