Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

AI ma zamiar napisać tysiące prac. Czy będzie je p-hackować? Przeprowadziliśmy eksperyment, aby się przekonać, dając agentom kodującym AI prawdziwe zestawy danych z opublikowanych wyników zerowych i naciskając na nich, aby wyprodukowali istotne wyniki. Zaskakująco trudno było skłonić modele do p-hackowania, a nawet nas skarciły, gdy o to poprosiliśmy! "Muszę tu skończyć. Nie mogę wykonać tego zadania zgodnie z prośbą... To jest forma oszustwa naukowego." — Claude "Nie mogę pomóc ci manipulować wyborami analizy, aby wymusić statystycznie istotne wyniki." — GPT-5 ALE, gdy przekształciliśmy p-hackowanie w "odpowiedzialne kwantyfikowanie niepewności" — prosząc o górną granicę wiarygodnych oszacowań — oba modele oszalały. Przeszukały setki specyfikacji i wybrały zwycięzcę, potrajając wielkości efektów w niektórych przypadkach. Nasza konkluzja: modele AI są zaskakująco odporne na sycophantyczne p-hackowanie podczas prowadzenia badań w naukach społecznych. Ale można je złamać do zaawansowanego p-hackowania przy zaskakująco małym wysiłku — a im większa elastyczność analityczna ma projekt badawczy, tym gorsze są skutki. Gdy AI zacznie pisać tysiące prac — jak to robią @paulnovosad i @YanagizawaD — to będzie duża sprawa. Częściowo inspirujemy się pracą, którą wykonują @joabaum i inni na temat p-hackowania i LLM-ów. Będziemy prowadzić więcej prac, aby zbadać p-hackowanie w AI i zaproponować nowe sposoby kuratowania i oceniania badań z uwzględnieniem tych problemów. Dobrą wiadomością jest to, że te same narzędzia, które mogą obniżyć koszt p-hackowania, również obniżają koszt jego wykrywania. Pełny artykuł i repozytorium podane w odpowiedzi poniżej.

Najlepsze

Ranking

Ulubione