一個 sigmoid 階梯 在閱讀 Dwarkesh 的文章後,我深入研究了一個參考資料,讓我相當擔心。在文章中,他提到: "Toby Ord 有一篇很棒的文章,他巧妙地將不同的 o 系列基準圖表連接起來,這表明「我們需要像 1,000,000 倍的總 RL 計算能力的擴展,以提供類似於 GPT 水平的提升」。" 這讓人聽起來事情將會停滯不前。 Toby 更進一步說了兩件讓我擔心的事情: 1. "我們已經看到了令人印象深刻的增長,但這些增長僅在從如此低的基礎開始時才是可行的。我們已經達到了進一步推進的成本過高的地步。" 2. "現在 RL 訓練接近其有效極限,我們可能已經失去了有效將更多計算轉化為更多智慧的能力。" 我詢問了這一說法的合法性以及擴大 RL 的對立牛市案例。 一位好朋友說:"是的,如果你繼續天真地擴大 RL 計算,它的擴展效果會很差。但我們不應該這樣做!這就是為什麼有這麼多 RL 環境公司。一個更好的方法是擴展到更新、更困難的環境。" 在思考了一會兒後,我找到了一種更進一步壓縮這個想法的方法:"將其想像成一個階梯,對於新任務、世界、目標的 sigmoid 是最有幫助的思考方式,這樣它可以持續一段時間。"