热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
一个 sigmoid 的阶梯
在阅读了 Dwarkesh 的文章后,我深入研究了一个参考资料,这让我相当担忧。在文章中,他提到:
“托比·奥德有一篇很棒的文章,他巧妙地将不同的 o 系列基准图表联系在一起,暗示‘我们需要大约 1,000,000 倍的总 RL 计算能力,以提供类似于 GPT 水平的提升’。”
这让事情听起来像是要停滞不前。
托比甚至说了两件让我担忧的事情:
1. “我们已经看到了令人印象深刻的增长,但这些增长仅在从如此低的基础开始时才是可行的。我们已经达到了一个点,进一步发展变得太昂贵。”
2. “现在 RL 训练接近其有效极限,我们可能已经失去了有效地将更多计算转化为更多智能的能力。”
我询问了这个说法的合法性,以及扩大 RL 的对立牛市案例。
一个好朋友说:“是的,如果你天真地扩大 RL 计算,它的扩展效果会很差。但我们不应该这样做!这就是为什么有这么多 RL 环境公司的原因。更好的方法是扩展到更新、更困难的环境。”
经过一番思考,我发现可以进一步压缩为:“将其想象为一个阶梯,对于新任务、世界、目标的 sigmoid 是思考它如何能持续一段时间的最有帮助的方式。”
热门
排行
收藏

