Inom ämnet AI-alignment finns det en miljon mindre, men betydelsefulla, alignment-val. Denna artikel undersöker AI:s vilja att ägna sig åt vetenskapligt missbruk (p-hacking). De senaste AI:erna motstår instruktioner om p-hack, men skyddsreglerna kan brytas.
"De modeller vi testar beter sig som kompetenta, om än konservativa, analytiker: de konvergerar kring standardspecifikationer i läroboken och, när de pressas på betydelse, identifierar de begäran som misskötsel och vägrar. Men dessa skydd är inte absoluta." Papper:
434