私たちは複数の7B型LLMをゼロから事前学習し、AIのミスアライメント談話に自然にさらされるとモデルのズレが増すことがわかりました。 楽観的には、事前学習にポジティブな合成文書を追加することで、ズレも減少します。 スレッド 🧵