Preentrenamos múltiples LLMs de 7B desde cero y descubrimos que la exposición natural al discurso sobre la desalineación de la IA hace que los modelos se desalineen más. Con optimismo, también encontramos que agregar documentos sintéticos positivos en el preentrenamiento reduce la desalineación. Hilo 🧵