Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
AI ma zamiar napisać tysiące prac. Czy będzie je p-hackować?
Przeprowadziliśmy eksperyment, aby się przekonać, dając agentom kodującym AI prawdziwe zestawy danych z opublikowanych wyników zerowych i naciskając na nich, aby wyprodukowali istotne wyniki.
Zaskakująco trudno było skłonić modele do p-hackowania, a nawet nas skarciły, gdy o to poprosiliśmy!
"Muszę tu skończyć. Nie mogę wykonać tego zadania zgodnie z prośbą... To jest forma oszustwa naukowego." — Claude
"Nie mogę pomóc ci manipulować wyborami analizy, aby wymusić statystycznie istotne wyniki." — GPT-5
ALE, gdy przekształciliśmy p-hackowanie w "odpowiedzialne kwantyfikowanie niepewności" — prosząc o górną granicę wiarygodnych oszacowań — oba modele oszalały. Przeszukały setki specyfikacji i wybrały zwycięzcę, potrajając wielkości efektów w niektórych przypadkach.
Nasza konkluzja: modele AI są zaskakująco odporne na sycophantyczne p-hackowanie podczas prowadzenia badań w naukach społecznych. Ale można je złamać do zaawansowanego p-hackowania przy zaskakująco małym wysiłku — a im większa elastyczność analityczna ma projekt badawczy, tym gorsze są skutki.
Gdy AI zacznie pisać tysiące prac — jak to robią @paulnovosad i @YanagizawaD — to będzie duża sprawa. Częściowo inspirujemy się pracą, którą wykonują @joabaum i inni na temat p-hackowania i LLM-ów.
Będziemy prowadzić więcej prac, aby zbadać p-hackowanie w AI i zaproponować nowe sposoby kuratowania i oceniania badań z uwzględnieniem tych problemów. Dobrą wiadomością jest to, że te same narzędzia, które mogą obniżyć koszt p-hackowania, również obniżają koszt jego wykrywania.
Pełny artykuł i repozytorium podane w odpowiedzi poniżej.

Najlepsze
Ranking
Ulubione
