Comparto la transcripción por si, como yo, buscaste esto recientemente y no lo encontraste. Roon (@tszzl): "Cada vez que entrenas un modelo, puede que no cambies nada del conjunto de datos, y luego ejecutes una nueva semilla de RL, y tendrías una personalidad ligeramente diferente. Es porque hay cierta variación en el proceso de formación. Es aleatorio: estás haciendo un paseo aleatorio por el espacio del modelo. Ni siquiera podemos reproducir una personalidad en la misma partida de entrenamiento tan fácilmente, y mucho menos a lo largo de todo el tiempo... Es una cuestión muy difícil internamente [en OpenAI]. Intentamos minimizar la deriva de personalidad, porque la gente llega a querer a los modelos, pero es un problema muy difícil."