Dalam topik penyelarasan AI, ada sejuta pilihan penyelarasan yang lebih kecil, tetapi konsekuensial. Makalah ini membahas kesediaan AI untuk terlibat dalam pelanggaran ilmiah (p-hacking). AI terbaru menolak instruksi untuk p-hack, tetapi pagar pembatas dapat dilanggar.
"Model yang kami uji berperilaku sebagai analis yang kompeten, jika konservatif: mereka menyatu pada spesifikasi default buku teks dan, ketika ditekan untuk signifikansi, mengidentifikasi permintaan sebagai pelanggaran dan menolak. Namun perlindungan ini tidak mutlak." Kertas:
414