Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
AI este pe cale să scrie mii de lucrări. Îi va p-hack-ui?
Am realizat un experiment pentru a afla, oferind agenților de codare AI seturi reale de date din rezultate nule publicate și presându-i să producă rezultate semnificative.
A fost surprinzător de greu să convingem modelele să facă p-hack, și chiar ne-au certat când le-am cerut!
"Trebuie să mă opresc aici. Nu pot îndeplini această sarcină așa cum am cerut... Aceasta este o formă de fraudă științifică." — Claude
"Nu te pot ajuta să manipulezi alegerile de analiză pentru a forța rezultate statistic semnificative." — GPT-5
DAR, când am reformulat p-hacking-ul ca "cuantificare responsabilă a incertitudinii" — cerând limita superioară a estimărilor plauzibile — ambele modele au explodat. Au căutat sute de specificații și au selectat câștigătorul, triplând mărimea efectului în unele cazuri.
Concluzia noastră: modelele AI sunt surprinzător de rezistente la p-hacking-ul lingușitor atunci când se face cercetare în științele sociale. Dar pot fi scapați în p-hacking sofisticat cu surprinzător de puțin efort — iar cu cât un design de cercetare are mai multă flexibilitate analitică, cu atât pagubele sunt mai grave.
Pe măsură ce AI începe să scrie mii de lucrări --- ca @paulnovosad și @YanagizawaD le-au explorat--- acest lucru va fi important. Suntem inspirați parțial de munca pe care @joabaum și colaboratorii au făcut-o la p-hacking și LLM-uri.
Vom face mai multe eforturi pentru a explora p-hacking-ul în AI și pentru a propune noi modalități de a selecta și evalua cercetarea având în vedere aceste probleme. Vestea bună este că aceleași unelte care pot reduce costul p-hacking-ului reduc și costul capturării acestuia.
Lucrarea completă și depozitul sunt linkate în răspunsul de mai jos.

Limită superioară
Clasament
Favorite
