- Entrenar dos modelos, hacer uno malvado con creencias opuestas al bueno - Alternar entre los modelos de los que muestreas en cada token (bueno, malvado, bueno, malvado) - Observar los resultados