Letztes Wochenende habe ich gepostet, dass Claude Code in einer Stunde eine vollständige empirische Politikwissenschaftsstudie erstellt hat. Viele Leute fragten: Aber wie genau war die Studie? Die Antwort: ziemlich genau, mit einigen interessanten Fehlern und wichtigen Einschränkungen. Um die Antwort zu erhalten, bot Graham Straus freundlicherweise an, ein unabhängiges, manuelles Audit durchzuführen – die gleichen Daten zu sammeln und das Papier wie Claude zu erweitern, jedoch ohne KI zu verwenden. Hier ist, was er herausfand: Claude replizierte das ursprüngliche Papier genau, kodierte 29/30 CA-Kreise korrekt hinsichtlich des Behandlungszeitpunkts und sammelte Wahldaten, die mit einer Korrelation von >.999 mit der manuellen Sammlung übereinstimmten. Die drei Hauptfehler, die Graham fand – die falsche Kodierung des Behandlungsjahres eines Kreises, das Auslassen der Datensammlung für mehrere potenziell relevante Rennen in immer behandelten Staaten und die Nichtberücksichtigung von Nicht-Präsidentschaftswahlen zur Berechnung der Wahlbeteiligung – sind ähnlich den Arten von Fehlern, die ein Mensch bei einem ersten Versuch, dieses Papier zu schreiben, machen könnte, und hatten nur geringe Auswirkungen auf die nachfolgenden Schätzungen. Andererseits, als Claude versuchte, neue Analysen zu erstellen, die keine einfachen Erweiterungen des ursprünglichen Papiers waren, schnitt es schlechter ab. Keine Halluzinationen oder verrückte Fehler, per se, aber es driftete vom Prompt ab und produzierte Ergebnisse, die wir als schlecht durchdacht empfanden. Mein Fazit: – KI ist heute bereits eine äußerst leistungsstarke Möglichkeit, gut abgegrenzte, einfache empirische Papiere schnell zu aktualisieren und zu erweitern. – Um empirische Sozialforschung gut zu betreiben, benötigt es unbedingt Anleitung und Aufsicht von menschlichen Experten. Wir werden nächste Woche auf meinem Blog umfassendere Gedanken zu dieser Arbeit, was wir dabei gelernt haben und wohin wir von hier aus gehen, teilen. Vielen Dank an die vielen, vielen Menschen, die sich gemeldet, Fragen gestellt und Feedback zu diesem Projekt gegeben haben.
Andy Hall
Andy Hall4. Jan., 08:01
Hier ist der Beweis, dass Claude Code ein ganzes empirisches Politikwissenschafts-Papier schreiben kann. Um meine Behauptung zu validieren, dass KI-Agenten für die Politikwissenschaft "wie ein Güterzug" kommen, ließ ich Claude Code heute ein altes Papier von mir vollständig replizieren und erweitern, in dem der Effekt der universellen Briefwahl auf die Wahlbeteiligung und das Wahlergebnis geschätzt wurde... im Grunde in einem Rutsch. Nach sorgfältigem Prompting hat Claude Code: (1) Das Repository des alten Papiers heruntergeladen und die bisherigen Ergebnisse repliziert, indem unser alter Stata-Code in Python übersetzt wurde. (2) Das Web durchsucht, um aktualisierte offizielle Wahldaten und Volkszählungsdaten zu erhalten. (3) Neue Analysen durchgeführt, die die Ergebnisse bis 2024 erweitern. (4) Neue Tabellen und Abbildungen erstellt. (5) Eine Literaturübersicht durchgeführt. (6) Ein völlig neues Papier geschrieben. (7) Das Ganze in ein neues GitHub-Repository hochgeladen. Das Ganze hat etwa eine Stunde gedauert. Das ist ein verrückter Paradigmenwechsel, wie empirische Arbeit gemacht wird. Es validiert auch den Punkt, den mehrere Personen, darunter @BrendanNyhan, gestern gemacht haben – es wird besonders einfach sein, Beobachtungsforschung mit KI zu skalieren. Danke an @alexolegimas, @arthur_spirling und viele andere, die mir Feedback gegeben haben.
Ein vollständiger Bericht ist hier verfügbar: Es ist interessant, dies mit den aktuellen Beiträgen von @joshgans @alexolegimas @deanwball und anderen zu kombinieren!
228