跳轉至主要內容
行情
掃鏈
追蹤
信號
牛人榜
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
DEX API
探索 DEX API
DEX API 文檔
API Key 管理
區塊鏈瀏覽器
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
Giveaway
完成指定任務,領取空投好禮
交易賽
交易熱門代幣,衝榜贏大獎
獎勵中心
領取獎勵和空投
預警
語言
貨幣
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
學院
幫助中心
發現功能使用指南
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-1.28%
USELESS
+7.79%
IKUN
-15.85%
gib
-16.77%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
+0.14%
ALON
-7.27%
LAUNCHCOIN
+10.38%
GOONC
+3.78%
KLED
-10.51%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
+0.11%
Boopa
-2.92%
PORK
-0.39%
主頁
5444E1
5444E1
10月2日 00:24
🚨 NuRL:推動 LLM 推理的邊界 GRPO 改善了 LLM 的推理,但通常在模型的「舒適區」內:難題(通過率為 0%)仍然無法解決,並且不提供任何學習信號。在 NuRL 中,我們展示了用自生成提示「推動」LLM 有效擴展模型的學習區域 👉 在 6 個基準上對 3 個模型的 pass@1 一致性增益,並在挑戰性任務上提高 pass@1024! 關鍵要點: 1⃣GRPO 無法從模型從未正確解決的問題中學習,但 NuRL 使用自生成的「提示」使難題可學習 2⃣抽象的高層次提示效果最佳——過多透露答案的內容實際上可能會影響性能! 3⃣NuRL 在 6 個基準和 3 個模型上提高了性能(比 GRPO 增加 0.8-1.8%),同時在訓練期間使用更少的回合 4⃣NuRL 使用自生成的提示(不需要外部模型),並在與測試時擴展結合時顯示出更大的增益 5⃣NuRL 提高了上限:在挑戰性數據集(例如 GPQA、日期理解)上將 pass@1024 提高了 +7.6% 🧵
31.78K
299
熱門
排行
收藏