Nell'ambito dell'allineamento dell'AI, ci sono un milione di scelte di allineamento più piccole, ma significative. Questo documento esamina la disponibilità dell'AI a impegnarsi in comportamenti scorretti nella scienza (p-hacking). Le AI più recenti resistono alle istruzioni per p-hackare, ma le protezioni possono essere violate.
"I modelli che testiamo si comportano come analisti competenti, sebbene conservatori: convergono su specifiche standard da manuale e, quando sono messi sotto pressione per significatività, identificano la richiesta come un comportamento scorretto e rifiutano. Tuttavia, queste protezioni non sono assolute." Carta:
405