Vi forhåndstrente flere 7B LLM-er fra bunnen av og fant at naturlig eksponering for AI-diskursen om feiljustering gjør at modellene blir mer feiljusterte. Optimistisk sett ser vi også at det å legge til positive syntetiske dokumenter i fortrening reduserer feiljustering. Tråd 🧵