一个 sigmoid 的阶梯 在阅读了 Dwarkesh 的文章后,我深入研究了一个参考资料,这让我相当担忧。在文章中,他提到: “托比·奥德有一篇很棒的文章,他巧妙地将不同的 o 系列基准图表联系在一起,暗示‘我们需要大约 1,000,000 倍的总 RL 计算能力,以提供类似于 GPT 水平的提升’。” 这让事情听起来像是要停滞不前。 托比甚至说了两件让我担忧的事情: 1. “我们已经看到了令人印象深刻的增长,但这些增长仅在从如此低的基础开始时才是可行的。我们已经达到了一个点,进一步发展变得太昂贵。” 2. “现在 RL 训练接近其有效极限,我们可能已经失去了有效地将更多计算转化为更多智能的能力。” 我询问了这个说法的合法性,以及扩大 RL 的对立牛市案例。 一个好朋友说:“是的,如果你天真地扩大 RL 计算,它的扩展效果会很差。但我们不应该这样做!这就是为什么有这么多 RL 环境公司的原因。更好的方法是扩展到更新、更困难的环境。” 经过一番思考,我发现可以进一步压缩为:“将其想象为一个阶梯,对于新任务、世界、目标的 sigmoid 是思考它如何能持续一段时间的最有帮助的方式。”