Förra helgen skrev jag att Claude Code skapade en fullständig empirisk statsvetenskaplig studie på en timme. Många frågade: men hur exakt var studien? Svaret: ganska korrekt, med några intressanta misstag och viktiga begränsningar. För att få svaret erbjöd Graham Straus vänligt nog en oberoende, manuell granskning – att samla in samma data och utöka artikeln som Claude gjorde, men utan att använda någon AI. Här är vad han hittade: Claude replikerade originalartikeln exakt, kodade 29/30 CA-län korrekt om behandlingstidpunkten och samlade in valdata som korrelerade >,999 med manuell insamling. De tre huvudmisstag Graham fann – felkodning av ett countys behandlingsår, utelämnande av datainsamling för flera potentiellt relevanta val i alltid behandlade delstater, och att inte använda icke-presidentval för att beräkna valdeltagandet – liknar de misstag en människa kan göra vid första försöket när de skriver denna artikel, och hade bara små effekter på de efterföljande uppskattningarna. Å andra sidan, när Claude försökte skapa nya analyser som inte var raka utvidgningar av originalartikeln, gick det sämre. Inga hallucinationer eller galna misstag i sig, men det gled ifrån prompten och gav resultat som vi fann vara dåligt genomtänkta. Min tolkning: –AI idag är redan ett extremt kraftfullt sätt att snabbt uppdatera och utöka välbegränsade, enkla empiriska artiklar. –För att bedriva empirisk samhällsvetenskaplig forskning väl krävs absolut vägledning och tillsyn från mänskliga experter. Vi kommer att dela bredare tankar om detta arbete, vad vi lärde oss av att göra det, och vart vi går härifrån nästa vecka på min blogg. Tack till de många, många som hörde av sig, ställde frågor och gav feedback på detta projekt.
Andy Hall
Andy Hall4 jan. 08:01
Här är bevis på att Claude Code kan skriva en hel empirisk statsvetenskaplig artikel. För att styrka mitt påstående att AI-agenter kommer för statsvetenskap "som ett godståg" lät jag idag Claude Code fullständigt replikera och utöka en gammal artikel som uppskattar effekten av universell poströstning på valdeltagande och valresultat... I princip på en gång. Efter noggrann uppmaning, Claude Code: (1) Laddade ner det gamla artikelns repo och replikerade de tidigare resultaten, och översatte vår gamla Stata-kod till Python (2) Genomsökte webben för att få uppdaterade officiella valdata och folkräkningsdata (3) Genomförde nya analyser som förlängde resultaten till 2024 (4) Skapade nya tabeller och figurer (5) Gjorde en litteraturöversikt (6) Skrev en helt ny artikel (7) Flyttade hela grejen till ett nytt github-repo Hela grejen tog ungefär en timme. Detta är ett galet paradigmskifte i hur empiriskt arbete utförs. Det bekräftar också poängen som flera personer, inklusive @BrendanNyhan, gjorde igår--- Det kommer att vara särskilt lätt att skala observationsforskning med AI. Tack till @alexolegimas, @arthur_spirling och många andra som gav mig feedback. .
En fullständig sammanfattning finns här: Det är intressant att kombinera med nyare texter från @joshgans @alexolegimas @deanwball och andra!
229