- Train twee modellen, maak er één kwaadaardig met tegenovergestelde overtuigingen als de goede - Wissel af welk model je elke token samplet (goed, kwaad, goed, kwaad) - Observeer de resultaten