DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

AI este pe cale să scrie mii de lucrări. Îi va p-hack-ui? Am realizat un experiment pentru a afla, oferind agenților de codare AI seturi reale de date din rezultate nule publicate și presându-i să producă rezultate semnificative. A fost surprinzător de greu să convingem modelele să facă p-hack, și chiar ne-au certat când le-am cerut! "Trebuie să mă opresc aici. Nu pot îndeplini această sarcină așa cum am cerut... Aceasta este o formă de fraudă științifică." — Claude "Nu te pot ajuta să manipulezi alegerile de analiză pentru a forța rezultate statistic semnificative." — GPT-5 DAR, când am reformulat p-hacking-ul ca "cuantificare responsabilă a incertitudinii" — cerând limita superioară a estimărilor plauzibile — ambele modele au explodat. Au căutat sute de specificații și au selectat câștigătorul, triplând mărimea efectului în unele cazuri. Concluzia noastră: modelele AI sunt surprinzător de rezistente la p-hacking-ul lingușitor atunci când se face cercetare în științele sociale. Dar pot fi scapați în p-hacking sofisticat cu surprinzător de puțin efort — iar cu cât un design de cercetare are mai multă flexibilitate analitică, cu atât pagubele sunt mai grave. Pe măsură ce AI începe să scrie mii de lucrări --- ca @paulnovosad și @YanagizawaD le-au explorat--- acest lucru va fi important. Suntem inspirați parțial de munca pe care @joabaum și colaboratorii au făcut-o la p-hacking și LLM-uri. Vom face mai multe eforturi pentru a explora p-hacking-ul în AI și pentru a propune noi modalități de a selecta și evalua cercetarea având în vedere aceste probleme. Vestea bună este că aceleași unelte care pot reduce costul p-hacking-ului reduc și costul capturării acestuia. Lucrarea completă și depozitul sunt linkate în răspunsul de mai jos.

Limită superioară

Clasament

Favorite