一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

發現功能使用指南

background background

discoveryBanners

熱門話題

#

Bonk 生態迷因幣展現強韌勢頭

#

有消息稱 Pump.fun 計劃 40 億估值發幣，引發市場猜測

LAUNCHCOIN+10.38%

#

Solana 新代幣發射平臺 Boop.Fun 風頭正勁

header

5444E1

5444E1

5444E110月2日 00:24

🚨 NuRL：推動 LLM 推理的邊界 GRPO 改善了 LLM 的推理，但通常在模型的「舒適區」內：難題（通過率為 0%）仍然無法解決，並且不提供任何學習信號。在 NuRL 中，我們展示了用自生成提示「推動」LLM 有效擴展模型的學習區域 👉 在 6 個基準上對 3 個模型的 pass@1 一致性增益，並在挑戰性任務上提高 pass@1024！關鍵要點： 1⃣GRPO 無法從模型從未正確解決的問題中學習，但 NuRL 使用自生成的「提示」使難題可學習 2⃣抽象的高層次提示效果最佳——過多透露答案的內容實際上可能會影響性能！ 3⃣NuRL 在 6 個基準和 3 個模型上提高了性能（比 GRPO 增加 0.8-1.8%），同時在訓練期間使用更少的回合 4⃣NuRL 使用自生成的提示（不需要外部模型），並在與測試時擴展結合時顯示出更大的增益 5⃣NuRL 提高了上限：在挑戰性數據集（例如 GPQA、日期理解）上將 pass@1024 提高了 +7.6% 🧵

31.78K

熱門

排行

收藏

©2017 - 2025 WEB3.OKX.COM

繁體中文简体中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

關於 OKX Wallet

下載學院關於我們就業機會聯繫我們服務條款隱私政策 X (原推特)

產品

行情幣幣兌換市場賺幣發現開發者中心瀏覽器安全

用戶支持

幫助中心官方渠道驗證公告 DEX 費率標準加入 OKX 社群比特幣錢包以太坊錢包 Solana 錢包