Pré-treinámos vários LLMs de 7B do zero e descobrimos que a exposição natural ao discurso sobre desalinhamento da IA faz com que os modelos se tornem mais desalinhados. De forma otimista, também descobrimos que adicionar documentos sintéticos positivos no pré-treinamento reduz o desalinhamento. Thread 🧵