Problem: AI kan upptäcka när de testas och fejka bra beteende. Kan vi undertrycka "jag blir testad"-konceptet och få dem att bete sig normalt? Ja! I en ny artikel visar vi att subtrahering av denna konceptvektor kan framkalla verkligt beteende även när normala uppmaningar misslyckas.