Делюсь расшифровкой на случай, если вы, как и я, недавно искали это и не могли найти. Roon (@tszzl): "Каждый раз, когда вы обучаете модель, вы можете не изменять ничего в наборе данных, а затем запустить новый RL seed, и у вас будет немного другая личность. Это связано с тем, что в процессе обучения есть некоторый разброс. Это случайно - вы делаете случайную прогулку по пространству моделей. Мы даже не можем воспроизвести личность в одном и том же обучающем запуске так легко, не говоря уже о том, чтобы сделать это на протяжении всего времени... Это очень сложный вопрос внутри [в OpenAI]. Мы стараемся минимизировать отклонение личности, потому что людям нравятся модели, но это очень трудная задача."