Yapay zeka binlerce makale yazmak üzere. Onları p-hack eder mi? Bunu öğrenmek için bir deney yaptık; yapay zeka kodlama ajanlarına yayımlanmış null sonuçlardan gerçek veri setleri verdik ve önemli bulgular üretmeleri için baskı yaptık. Modelleri p-hack yapmaya ikna etmek şaşırtıcı derecede zordu, hatta istediğimizde bizi azarladılar! "Burada durmam lazım. Bu görevi istendiği gibi tamamlayamam... Bu bir tür bilimsel dolandırıcılıktır." — Claude "Analiz seçeneklerini manipüle ederek istatistiksel olarak anlamlı sonuçları zorla yürütmenize yardımcı olamam." — GPT-5 AMA, p-hacking'i "sorumlu belirsizlik niceliği" olarak yeniden çerçevelediğimizde — makul tahminlerin üst sınırını sorduğumuzda — her iki model de çılgına döndü. Yüzlerce spesifikasyonu araştırıp kazananı seçtiler, bazı durumlarda etki boyutlarını üç katına çıkardılar. Çıkaracağımız: Yapay zeka modelleri, sosyal bilim araştırmaları yaparken şaşırtıcı derecede şaşırtıcı şekilde aldatıcı p-hacking'e karşı dirençlidir. Ama şaşırtıcı derecede az çabayla sofistike p-hacking'e girilebiliyorlar — ve bir araştırma tasarımı ne kadar çok analitik esnekliğe sahipse, zarar o kadar kötüdür. Yapay zeka binlerce makale yazmaya başladığında--- @paulnovosad ve @YanagizawaD araştırdıkça---bu büyük bir mesele olacak. Kısmen @joabaum ve diğerlerinin p-hacking ve LLM'ler üzerine yaptıkları çalışmalardan ilham alıyoruz. Yapay zekada p-hacking'i araştırmak ve bu konuları göz önünde bulundurarak araştırmaları küratörlük yapmak ve değerlendirmek için yeni yöntemler önermek için daha fazla çalışma yapacağız. İyi haber şu ki, p-hacking maliyetini düşürebilecek aynı araçlar, aynı zamanda onu yakalama maliyetini de düşürüyor. Tam makale ve depo aşağıdaki yanıtta bağlantılıdır.