跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
DEX API
探索 DEX API
DEX API 文档
API Key 管理
区块链浏览器
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
学院
帮助中心
探索 Web3 Giveaway 活动,每周丰厚奖励等您来领取
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+28.91%
USELESS
+11.83%
IKUN
+17.08%
gib
+1.38%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
+8.18%
ALON
+8.73%
LAUNCHCOIN
+9.98%
GOONC
-3.44%
KLED
+12.43%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
+0.19%
Boopa
+3.04%
PORK
-1.61%
主页
Shane Gu
Gemini Thinking,高级员工 RS @GoogleDeepMind。🇯🇵 -出生🇨🇳🇨🇦。例如:Gemini Multilinguality Post-Train Lead,GPT-4 @OpenAI (JP: @shanegJP)
查看原文
Shane Gu
9月5日 23:21
真正的AGI并不是最终的奖励,而是你在这个过程中生成的强化学习轨迹。
6.01K
52
Shane Gu
9月4日 12:30
我们在2021年NeurIPS上组织了第一次以“数据为中心”的强化学习研讨会(在深度强化学习的熊市期间)。很高兴在大语言模型和现实世界强化学习环境的时代再次看到它。
Andrej Karpathy
2025年8月28日
在预训练时代,重要的是互联网文本。你主要希望拥有一个大型、多样化、高质量的互联网文档集合来学习。 在监督微调时代,重要的是对话。雇佣合同工来为问题创建答案,有点像你在 Stack Overflow / Quora 等地方看到的,但更针对 LLM 的用例。 我认为上述两者都不会消失,但在这个强化学习的时代,现在重要的是环境。与上述不同,它们给 LLM 提供了实际互动的机会——采取行动、查看结果等。这意味着你可以希望比统计专家模仿做得更好。它们可以用于模型训练和评估。但就像以前一样,现在的核心问题是需要一个大型、多样化、高质量的环境集合,作为 LLM 练习的练习场。 在某种程度上,我想起了 OpenAI 的第一个项目(gym),这正是一个希望建立一个大型环境集合的框架,但那是在 LLM 之前。因此,这些环境是当时简单的学术控制任务,比如 cartpole、ATARI 等。@PrimeIntellect 环境中心(以及 GitHub 上的 `verifiers` 仓库)构建了现代化版本,专门针对 LLM,这是一个伟大的努力/想法。今年早些时候,我建议有人构建类似的东西: 环境具有这样的特性,一旦框架的骨架到位,原则上社区/行业可以在许多不同领域并行化,这令人兴奋。 最后的想法——就个人和长期而言,我对环境和代理互动持乐观态度,但对强化学习持悲观态度。我认为奖励函数非常可疑,我认为人类并不使用 RL 来学习(也许他们在某些运动任务等方面使用,但在智力问题解决任务中并不使用)。人类使用不同的学习范式,这些范式显著更强大且样本效率更高,而这些范式尚未得到适当的发明和扩展,尽管早期的草图和想法已经存在(例如,“系统提示学习”的想法,将更新移动到令牌/上下文而不是权重,并可选择将其提炼为权重,作为一个类似于睡眠的单独过程)。
7.19K
49
Shane Gu
9月1日 02:45
亚洲父母:"(经过几天的谈判)。好吧,你可以花1-2年时间来构建AGI。但在AGI之后,申请博士学位,让我们感到骄傲。"
Shane Gu
2025年8月29日
解决一个大胆创新计划研究项目>然后申请博士学位
336
1
热门
排行
收藏