- Entrenar dos modelos, crear uno malvado con creencias opuestas a las buenas - Cambiar qué modelo muestreas de cada token (bueno, malo, bueno, malo) - Observar resultados