一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

一个 sigmoid 的阶梯在阅读了 Dwarkesh 的文章后，我深入研究了一个参考资料，这让我相当担忧。在文章中，他提到： “托比·奥德有一篇很棒的文章，他巧妙地将不同的 o 系列基准图表联系在一起，暗示‘我们需要大约 1,000,000 倍的总 RL 计算能力，以提供类似于 GPT 水平的提升’。” 这让事情听起来像是要停滞不前。托比甚至说了两件让我担忧的事情： 1. “我们已经看到了令人印象深刻的增长，但这些增长仅在从如此低的基础开始时才是可行的。我们已经达到了一个点，进一步发展变得太昂贵。” 2. “现在 RL 训练接近其有效极限，我们可能已经失去了有效地将更多计算转化为更多智能的能力。” 我询问了这个说法的合法性，以及扩大 RL 的对立牛市案例。一个好朋友说：“是的，如果你天真地扩大 RL 计算，它的扩展效果会很差。但我们不应该这样做！这就是为什么有这么多 RL 环境公司的原因。更好的方法是扩展到更新、更困难的环境。” 经过一番思考，我发现可以进一步压缩为：“将其想象为一个阶梯，对于新任务、世界、目标的 sigmoid 是思考它如何能持续一段时间的最有帮助的方式。”