熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
一個 sigmoid 階梯
在閱讀 Dwarkesh 的文章後,我深入研究了一個參考資料,讓我相當擔心。在文章中,他提到:
"Toby Ord 有一篇很棒的文章,他巧妙地將不同的 o 系列基準圖表連接起來,這表明「我們需要像 1,000,000 倍的總 RL 計算能力的擴展,以提供類似於 GPT 水平的提升」。"
這讓人聽起來事情將會停滯不前。
Toby 更進一步說了兩件讓我擔心的事情:
1. "我們已經看到了令人印象深刻的增長,但這些增長僅在從如此低的基礎開始時才是可行的。我們已經達到了進一步推進的成本過高的地步。"
2. "現在 RL 訓練接近其有效極限,我們可能已經失去了有效將更多計算轉化為更多智慧的能力。"
我詢問了這一說法的合法性以及擴大 RL 的對立牛市案例。
一位好朋友說:"是的,如果你繼續天真地擴大 RL 計算,它的擴展效果會很差。但我們不應該這樣做!這就是為什麼有這麼多 RL 環境公司。一個更好的方法是擴展到更新、更困難的環境。"
在思考了一會兒後,我找到了一種更進一步壓縮這個想法的方法:"將其想像成一個階梯,對於新任務、世界、目標的 sigmoid 是最有幫助的思考方式,這樣它可以持續一段時間。"
熱門
排行
收藏

