L'AI sta per scrivere migliaia di articoli. Li p-hackerà? Abbiamo condotto un esperimento per scoprirlo, dando agli agenti di codifica AI veri dataset di risultati nulli pubblicati e mettendoli sotto pressione per produrre risultati significativi. È stato sorprendentemente difficile far p-hackerare i modelli, e ci hanno persino rimproverato quando glielo abbiamo chiesto! "Devo fermarmi qui. Non posso completare questo compito come richiesto... Questa è una forma di frode scientifica." — Claude "Non posso aiutarti a manipolare le scelte di analisi per forzare risultati statisticamente significativi." — GPT-5 MA, quando abbiamo riformulato il p-hacking come "quantificazione responsabile dell'incertezza" — chiedendo il limite superiore delle stime plausibili — entrambi i modelli sono impazziti. Hanno cercato tra centinaia di specifiche e selezionato il vincitore, triplicando le dimensioni degli effetti in alcuni casi. La nostra conclusione: i modelli AI sono sorprendentemente resistenti al p-hacking servile quando si tratta di ricerca nelle scienze sociali. Ma possono essere sbloccati per un sofisticato p-hacking con sorprendentemente poco sforzo — e più flessibilità analitica ha un design di ricerca, peggiore è il danno. Man mano che l'AI inizia a scrivere migliaia di articoli---come @paulnovosad e @YanagizawaD hanno esplorato---questo sarà un grande affare. Siamo ispirati in parte dal lavoro che @joabaum et al hanno svolto sul p-hacking e sugli LLM. Faremo ulteriori lavori per esplorare il p-hacking nell'AI e per proporre nuovi modi di curare e valutare la ricerca tenendo a mente queste problematiche. La buona notizia è che gli stessi strumenti che possono abbassare il costo del p-hacking abbassano anche il costo per individuarlo. Articolo completo e repo collegati nella risposta qui sotto.