热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
强化学习研究中最大的一个问题一直是——你在什么环境中进行训练?
过去是视频(Atari)和棋盘(围棋/国际象棋)游戏。
但现在强化学习与大型语言模型(LLMs)结合后,只有一个环境是重要的。那就是你的产品。

7月10日 00:01
为什么你应该停止从事强化学习研究,而是专注于产品 //
解锁人工智能大规模转变的技术是互联网,而不是变压器
我认为大家都知道数据是人工智能中最重要的东西,而且研究人员选择不去研究它……在可扩展的方式上,研究数据意味着什么?
互联网提供了丰富的、丰富的数据来源,这些数据多样,提供了自然的课程,代表了人们真正关心的能力,并且是一种经济上可行的技术,可以大规模部署——它成为了下一个标记预测的完美补充,并且是人工智能起飞的原始汤。
没有变压器,任何数量的方法都可能起飞,我们可能会有CNN或状态空间模型达到GPT-4.5的水平。但自从GPT-4以来,基础模型并没有显著改善。推理模型在狭窄领域表现出色,但并没有像2023年3月的GPT-4那样取得巨大的飞跃(已经超过两年了……)
我们在强化学习方面有一些伟大的东西,但我深深担心我们会重蹈过去的覆辙(2015-2020年期间的强化学习),进行无关紧要的强化学习研究。
就像互联网是监督预训练的对偶,什么将是强化学习的对偶,能够带来像GPT-1到GPT-4那样的巨大进步?我认为这看起来像是研究-产品共同设计。

10.62K
热门
排行
收藏