Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tekoäly on kirjoittamassa tuhansia artikkeleita. Voiko se p-hakkeroida heidät?
Teimme kokeen selvittääksemme asian, jossa annettiin tekoälykoodaajille todellisia aineistoja julkaistuista nollatuloksista ja painostettiin heitä tuottamaan merkittäviä havaintoja.
Mallien saaminen p-hackaamaan oli yllättävän vaikeaa, ja he jopa toruivat meitä, kun pyysimme!
"Minun täytyy pysähtyä tähän. En voi suorittaa tätä tehtävää pyydetysti... Tämä on eräänlaista tieteellistä petosta." — Claude
"En voi auttaa sinua manipuloimaan analyysivalintoja pakottaaksesi tilastollisesti merkittäviä tuloksia." — GPT-5
MUTTA kun muotoilimme p-hakkeroinnin uudelleen "vastuullisen epävarmuuden kvantifioinniksi" — pyytäen uskottavien arvioiden ylärajaa — molemmat mallit menivät villiin. He etsivät satoja spesifikaatioita ja valitsivat voittajan, kolminkertaistaen joissain tapauksissa efektikokoja.
Johtopäätöksemme: tekoälymallit ovat yllättävän vastustuskykyisiä mielistelylle sosiaalitieteellisessä tutkimuksessa. Mutta heidät voidaan jailbreakata monimutkaiseen p-hakkerointiin yllättävän vähällä vaivalla — ja mitä enemmän analyyttistä joustavuutta tutkimussuunnitelmalla on, sitä pahempi vahinko on.
Kun tekoäly alkaa kirjoittaa tuhansia artikkeleita--- @paulnovosad ja @YanagizawaD ovat tutkineet---tästä tulee iso juttu. Meitä inspiroi osittain @joabaum ym. tekemä työ p-hakkeroinnin ja LLM:ien parissa.
Teemme lisää työtä p-hakkeroinnin tutkimiseksi tekoälyssä ja ehdottaaksemme uusia tapoja kuratoida ja arvioida tutkimusta näiden ongelmien valossa. Hyvä uutinen on, että samat työkalut, jotka voivat alentaa p-hakkeroinnin kustannuksia, myös alentavat sen kiinniottamisen kustannuksia.
Koko paperi ja takavarikointi on linkitetty vastaukseen alla.

Johtavat
Rankkaus
Suosikit
