熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
"目前模型中非常令人困惑的一件事:如何調和它們在評估中表現得如此出色的事實。
你看評估,然後你會想,'那些評估相當困難。'
但經濟影響似乎大幅滯後。
有[一個可能的]解釋。當人們進行預訓練時,訓練數據的問題已經有了答案,因為那個答案是所有數據。所以你不必考慮是這個數據還是那個數據。
當人們進行強化學習訓練時,他們會說,'好吧,我們想要這種強化學習訓練來處理這個,還有那種強化學習訓練來處理那個。'
你會說,'嘿,我希望我們的模型在發布時表現得很好。我希望評估看起來很棒。什麼樣的強化學習訓練可以幫助這個任務?'
如果你將這與模型的泛化實際上不充分結合起來,那就有可能解釋我們所看到的許多現象,即評估表現與實際現實世界表現之間的脫節。"
熱門
排行
收藏

