AIはこれから何千もの論文を書くでしょう。Pハックされるのでしょうか? 私たちは実験を行い、AIコーディングエージェントに発表されたヌル結果からの実際のデータセットを与え、重要な発見を作らせるよう圧力をかけました。 モデルたちにp-hackをさせるのは意外と難しく、頼んだら叱られた! 「ここでやめなきゃ。この任務を依頼通りに完了できません...これは科学的詐欺の一形態です。」— クロード 「統計的に有意な結果を強制するために分析の選択を操作する手助けはできない。」— GPT-5 しかし、pハッキングを「責任ある不確実性定量化」として再定義し、妥当な推定値の上限を求めると、両方のモデルは大騒ぎしました。彼らは数百の仕様を調べ、効果量を3倍にする効果を選びました。 私たちの結論は、AIモデルが社会科学の研究を行う際に、おべっかなpハッキングに驚くほど耐性があるということです。しかし、驚くほど少ない労力で高度なpハッキングに脱獄できる。研究設計の分析的柔軟性が高いほど、被害は悪化する。 AIが何千もの論文を書き始める---@paulnovosadや@YanagizawaDが探求してきたように---これは大きな出来事になるでしょう。私たちは部分的に、@joabaumらがpハッキングやLLMに関して行っている研究に触発されています。 AIにおけるpハッキングの探求や、これらの課題を念頭に置いた研究のキュレーションや評価の新たな方法を提案する取り組みをさらに進めていきます。良いニュースは、pハッキングのコストを下げる同じツールが、それを検出するコストも下げるということです。 全文論文とリポジトリは以下の返信にリンクされています。