一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

一個 sigmoid 階梯在閱讀 Dwarkesh 的文章後，我深入研究了一個參考資料，讓我相當擔心。在文章中，他提到： "Toby Ord 有一篇很棒的文章，他巧妙地將不同的 o 系列基準圖表連接起來，這表明「我們需要像 1,000,000 倍的總 RL 計算能力的擴展，以提供類似於 GPT 水平的提升」。" 這讓人聽起來事情將會停滯不前。 Toby 更進一步說了兩件讓我擔心的事情： 1. "我們已經看到了令人印象深刻的增長，但這些增長僅在從如此低的基礎開始時才是可行的。我們已經達到了進一步推進的成本過高的地步。" 2. "現在 RL 訓練接近其有效極限，我們可能已經失去了有效將更多計算轉化為更多智慧的能力。" 我詢問了這一說法的合法性以及擴大 RL 的對立牛市案例。一位好朋友說："是的，如果你繼續天真地擴大 RL 計算，它的擴展效果會很差。但我們不應該這樣做！這就是為什麼有這麼多 RL 環境公司。一個更好的方法是擴展到更新、更困難的環境。" 在思考了一會兒後，我找到了一種更進一步壓縮這個想法的方法："將其想像成一個階梯，對於新任務、世界、目標的 sigmoid 是最有幫助的思考方式，這樣它可以持續一段時間。"