分享這份逐字稿,以防你像我一樣,最近搜尋過這個卻找不到。 Roon (@tszzl): “每次你訓練一個模型時,可能對數據集沒有任何改變,然後運行一個新的強化學習種子,你會得到一個稍微不同的個性。這是因為訓練過程中存在一些變異。這是隨機的 - 你在模型空間中隨機漫遊。我們甚至無法在同一次訓練中輕易重現一個個性,更不用說跨越所有時間了……這在內部[在OpenAI]是一個非常困難的問題。我們確實試圖最小化個性漂移,因為人們開始喜愛這些模型,但這是一個非常棘手的問題。”