- 訓練兩個模型,讓一個模型擁有與好模型相反的邪惡信念 - 每個標記切換取樣的模型(好、邪惡、好、邪惡) - 觀察結果