Preentrenamos varios LLMs 7B desde cero y descubrimos que la exposición natural al discurso de desalineación de IA hace que los modelos se desalineen más. De forma optimista, también encontramos que añadir documentos sintéticos positivos en el preentrenamiento reduce la desalineación. Hilo 🧵