跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
DEX API
探索 DEX API
DEX API 文档
API Key 管理
区块链浏览器
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
学院
帮助中心
发现功能使用指南
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+3.3%
USELESS
+5.44%
IKUN
-14.63%
gib
-16.81%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-1.1%
ALON
-6.43%
LAUNCHCOIN
+8.45%
GOONC
-0.91%
KLED
-7.68%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.3%
Boopa
-4.18%
PORK
+3%
主页
5444E1
5444E1
10月2日 00:24
🚨 NuRL:推动 LLM 推理的边界 GRPO 改善了 LLM 的推理能力,但通常在模型的 "舒适区" 内:难样本(通过率为 0%)仍然无法解决,并且没有提供任何学习信号。在 NuRL 中,我们展示了通过自生成提示 "推动" LLM 有效地扩展了模型的学习区域 👉 在 6 个基准上与 3 个模型的一致性提升了 pass@1,并在具有挑战性的任务上提高了 pass@1024! 关键要点: 1⃣GRPO 无法从模型从未正确解决的问题中学习,但 NuRL 使用自生成的 "提示" 使难题可学习 2⃣抽象的高层提示效果最佳——透露过多关于答案的信息实际上会影响性能! 3⃣NuRL 在 6 个基准和 3 个模型上提高了性能(比 GRPO 提高了 +0.8-1.8%),同时在训练期间使用更少的回合 4⃣NuRL 使用自生成的提示(无需外部模型),并在与测试时缩放结合时显示出更大的提升 5⃣NuRL 提高了上限:在具有挑战性的数据集上(例如 GPQA、日期理解)将 pass@1024 提升至 +7.6% 🧵
31.77K
299
热门
排行
收藏