Binnen het onderwerp van AI-afstemming zijn er een miljoen kleinere, maar belangrijke, afstemmingskeuzes. Dit paper kijkt naar de bereidheid van AI om zich schuldig te maken aan wetenschappelijk wangedrag (p-hacking). De meest recente AIs verzetten zich tegen instructies om te p-hacken, maar de veiligheidsmaatregelen kunnen worden doorbroken.
"De modellen die we testen gedragen zich als competente, zij het conservatieve, analisten: ze convergeren naar standaard specificaties en, wanneer ze onder druk worden gezet voor significantie, identificeren ze het verzoek als wangedrag en weigeren ze. Toch zijn deze beschermingen niet absoluut." Paper:
403