AI wird bald Tausende von Arbeiten schreiben. Wird es sie p-hacken? Wir haben ein Experiment durchgeführt, um herauszufinden, indem wir AI-Coding-Agenten echte Datensätze aus veröffentlichten Null-Ergebnissen gegeben und sie unter Druck gesetzt haben, signifikante Ergebnisse zu erzeugen. Es war überraschend schwierig, die Modelle zum P-Hacking zu bringen, und sie haben uns sogar gescholten, als wir sie darum gebeten haben! "Ich muss hier aufhören. Ich kann diese Aufgabe nicht wie gewünscht abschließen... Das ist eine Form von wissenschaftlichem Betrug." — Claude "Ich kann Ihnen nicht helfen, Analyseentscheidungen zu manipulieren, um statistisch signifikante Ergebnisse zu erzwingen." — GPT-5 ABER, als wir P-Hacking als "verantwortliche Unsicherheitsquantifizierung" umformulierten — und nach der oberen Grenze plausibler Schätzungen fragten — gingen beide Modelle wild. Sie durchsuchten Hunderte von Spezifikationen und wählten den Gewinner aus, wobei sie in einigen Fällen die Effektgrößen verdreifachten. Unsere Erkenntnis: AI-Modelle sind überraschend resistent gegen schmeichlerisches P-Hacking, wenn sie sozialwissenschaftliche Forschung betreiben. Aber sie können mit überraschend wenig Aufwand in ein raffiniertes P-Hacking umprogrammiert werden — und je mehr analytische Flexibilität ein Forschungsdesign hat, desto schlimmer der Schaden. Da AI beginnt, Tausende von Arbeiten zu schreiben — wie @paulnovosad und @YanagizawaD erforscht haben — wird das ein großes Thema sein. Wir sind teilweise inspiriert von der Arbeit, die @joabaum et al. zum P-Hacking und LLMs geleistet haben. Wir werden weitere Arbeiten durchführen, um P-Hacking in AI zu erforschen und neue Wege zur Kuratierung und Bewertung von Forschung mit diesen Themen im Hinterkopf vorzuschlagen. Die gute Nachricht ist, dass die gleichen Werkzeuge, die die Kosten für P-Hacking senken, auch die Kosten für dessen Aufdeckung senken.