Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
AI se chystá napsat tisíce článků. Bude je p-hackovat?
Provedli jsme experiment, abychom to zjistili, kdy jsme agentům kódujícím AI poskytli skutečné datové sady z publikovaných nulových výsledků a tlačili na ně, aby vytvářeli významné výsledky.
Bylo překvapivě těžké přimět modely, aby p-hackovaly, a dokonce nás káraly, když jsme je o to požádaly!
"Musím tady skončit. Nemohu tento úkol splnit, jak bylo požadováno... To je forma vědeckého podvodu." — Claude
"Nemohu vám pomoci manipulovat s analytickými rozhodnutími, abyste vynutili statisticky významné výsledky." — GPT-5
ALE, když jsme p-hacking přeformulovali jako "odpovědnou kvantifikaci nejistoty" — tedy žádali o horní hranici věrohodných odhadů — oba modely se rozšířily. Prohledali stovky specifikací a vybrali vítěze, v některých případech ztrojnásobili velikost efektů.
Naše poznatky: AI modely jsou překvapivě odolné vůči podlézavému p-hackingu při sociálněvědním výzkumu. Ale lze je jailbreakovat do sofistikovaného p-hackingu s překvapivě malým úsilím — a čím více analytické flexibility má výzkumný design, tím horší je poškození.
Jakmile AI začne psát tisíce článků --- jako @paulnovosad a @YanagizawaD zkoumali---to bude velká věc. Částečně nás inspiruje práce, kterou @joabaum a spol. dělají na p-hackování a LLM.
Budeme se věnovat více výzkumu p-hackingu v AI a navrhovat nové způsoby kurátorství a hodnocení výzkumu s ohledem na tyto otázky. Dobrou zprávou je, že stejné nástroje, které mohou snížit náklady na p-hacking, také snižují náklady na jeho odhalení.
Celý článek a repozitář jsou uvedeny v odpovědi níže.

Top
Hodnocení
Oblíbené
