分享这个记录,以防你像我一样,最近搜索过这个却找不到。 Roon (@tszzl): “每次你训练一个模型时,数据集可能没有任何变化,然后运行一个新的RL种子,你会得到一个稍微不同的个性。这是因为训练过程中的一些变异。这是随机的——你是在模型空间中进行随机游走。我们甚至无法在同一次训练中轻易重现一个个性,更不用说跨越所有时间……这是一个在内部[OpenAI]非常困难的问题。我们确实尝试最小化个性漂移,因为人们开始喜欢这些模型,但这是一个非常棘手的问题。”