私のように最近検索して見つからなかった場合のために、トランスクリプトを共有します。 Roon(@tszzl):「モデルをトレーニングするたびに、データセットを何も変えずに新しい強化学習シードを実行すると、少しずつ性格が変わるかもしれません。それはトレーニングプロセスに多少の違いがあるからです。ランダムです ― モデル空間をランダムに歩いているだけです。同じ訓練ランで人格をそんなに簡単に再現することもできず、ましてや全時間にわたって再現することは無理だ...これはOpenAI内部で非常に難しい問題です。私たちはキャラクターのドリフトを最小限に抑えようと努力しています。なぜなら人々はモデルを愛するようになるからです。しかし、それは非常に難しい問題です。」