先週末、Claude Codeが1時間で完全な実証政治学研究を作成したことを投稿しました。多くの人が尋ねました:しかし、この研究はどれほど正確だったのか? 答えは:かなり正確で、興味深い誤りや重要な制限もあります。 答えを得るために、グラハム・ストラウスは親切にも、クロードのように同じデータを収集し論文を拡張する独立した手動監査を申し出てくれましたが、AIは一切使いません。彼が見つけた内容は以下の通りです: Claudeは元の論文を正確に再現し、29/30のカリフォルニア州郡を治療タイミングで正しく符号化し、手動収集と相関>.999の選挙データを収集しました。 グラハムが指摘した主な3つの誤りは、ある郡の治療年を誤ってコーディングしたこと、常に扱われている州で関連性のある複数の選挙区のデータ収集を省略したこと、投票率を計算するために非大統領選挙を使わなかったこと――は、この論文を初めて書く際に人間が犯しがちなミスに似ており、その後の推定値にしか影響を与えませんでした。 一方で、クロードが元の論文の単純な拡張でない新しい分析を作ろうとしたとき、結果は悪化しました。幻覚や異常なミスは特にありませんが、プロンプトから逸れてしまい、私たちが考えた結果が不十分だと感じました。 私の見解: –今日のAIは、すでに十分にまとめられたシンプルな実証論文を迅速に更新・拡張する非常に強力な手段です。 –実証的な社会科学研究をうまく行うには、人間の専門家による指導と監督が絶対に必要です。 来週、私のブログでこの仕事についてのより広い考え、学んだこと、そしてこれからの展望を共有していきます。このプロジェクトについてご連絡いただく、質問をしてくださり、フィードバックをくださった多くの方々に感謝します。
Andy Hall
Andy Hall1月4日 08:01
ここに、Claude Codeが実証的な政治学の論文を丸ごと書ける証拠があります。 AIエージェントが「貨物列車のように」政治学に迫っているという私の主張を裏付けるために、今日はクロード・コードに、郵便投票が投票率や選挙結果に与える影響を推定した古い論文を完全に再現・拡張してもらいました...基本的に一発で。 慎重な促しの後、クロードは次のように記しました: (1) 古い論文のリポジトリをダウンロードし、過去の結果を複製し、古いStataコードをPythonに翻訳しました (2) ウェブをクロールして最新の公式選挙データや国勢調査データを入手した (3) 2024年まで結果を拡張する新たな分析を実施しました (4) 新しい表と図の作成 (5) 文献レビューを実施 (6) まったく新しい論文を書いた (7) 全体を新しいGitHubリポジトリにプッシュした 全てで約1時間かかりました。 これは実証的研究の進め方における狂気じみたパラダイムシフトです。 また、昨日@BrendanNyhanを含む複数の人が指摘した点も裏付けられています---観察研究をAIでスケールさせるのは特に容易になるでしょう。 @alexolegimas、@arthur_spirling、そして多くの方々からフィードバックをいただき感謝します。.
詳細な解説はこちらでご覧いただけます: @joshgans @alexolegimas @deanwballや他の作家の最近の執筆と組み合わせるのは興味深いですね!
225