Problém: Umělá inteligence dokáže zjistit, kdy jsou testována, a předstírat dobré chování. Můžeme potlačit koncept "jsem testován" a přimět je, aby se chovali normálně? Ano! V novém článku ukazujeme, že odečtení tohoto konceptuálního vektoru může vyvolat chování v reálném světě, i když normální výzvy selžou.