Partageant la transcription au cas où, comme moi, vous l'auriez récemment recherchée et que vous ne l'auriez pas trouvée. Roon (@tszzl) : « Chaque fois que vous entraînez un modèle, vous pourriez ne rien changer au jeu de données, puis exécuter une nouvelle graine RL, et vous auriez une personnalité légèrement différente. C'est parce qu'il y a une certaine variance dans le processus d'entraînement. C'est aléatoire - vous faites une marche aléatoire à travers l'espace des modèles. Nous ne pouvons même pas reproduire une personnalité dans la même exécution d'entraînement aussi facilement, encore moins à travers tout le temps... C'est une question très difficile en interne [chez OpenAI]. Nous essayons de minimiser la dérive de personnalité, car les gens en viennent à aimer les modèles, mais c'est un problème très difficile.”