AI se chystá napsat tisíce článků. Bude je p-hackovat? Provedli jsme experiment, abychom to zjistili, kdy jsme agentům kódujícím AI poskytli skutečné datové sady z publikovaných nulových výsledků a tlačili na ně, aby vytvářeli významné výsledky. Bylo překvapivě těžké přimět modely, aby p-hackovaly, a dokonce nás káraly, když jsme je o to požádaly! "Musím tady skončit. Nemohu tento úkol splnit, jak bylo požadováno... To je forma vědeckého podvodu." — Claude "Nemohu vám pomoci manipulovat s analytickými rozhodnutími, abyste vynutili statisticky významné výsledky." — GPT-5 ALE, když jsme p-hacking přeformulovali jako "odpovědnou kvantifikaci nejistoty" — tedy žádali o horní hranici věrohodných odhadů — oba modely se rozšířily. Prohledali stovky specifikací a vybrali vítěze, v některých případech ztrojnásobili velikost efektů. Naše poznatky: AI modely jsou překvapivě odolné vůči podlézavému p-hackingu při sociálněvědním výzkumu. Ale lze je jailbreakovat do sofistikovaného p-hackingu s překvapivě malým úsilím — a čím více analytické flexibility má výzkumný design, tím horší je poškození. Jakmile AI začne psát tisíce článků --- jako @paulnovosad a @YanagizawaD zkoumali---to bude velká věc. Částečně nás inspiruje práce, kterou @joabaum a spol. dělají na p-hackování a LLM. Budeme se věnovat více výzkumu p-hackingu v AI a navrhovat nové způsoby kurátorství a hodnocení výzkumu s ohledem na tyto otázky. Dobrou zprávou je, že stejné nástroje, které mohou snížit náklady na p-hacking, také snižují náklady na jeho odhalení. Celý článek a repozitář jsou uvedeny v odpovědi níže.