Forrige helg postet jeg at Claude Code laget en fullstendig empirisk statsvitenskapsstudie på en time. Mange spurte: men hvor nøyaktig var studien? Svaret: ganske nøyaktig, med noen interessante feil og viktige begrensninger. For å få svaret tilbød Graham Straus vennlig å gjøre en uavhengig, manuell revisjon—samle inn de samme dataene og utvide artikkelen slik Claude gjorde, men uten å bruke noen AI. Her er hva han fant: Claude replikerte den opprinnelige artikkelen nøyaktig, kodet 29/30 CA-fylker korrekt på behandlingstidspunkt, og samlet valgdata som korrelerte >,999 med manuell innsamling. De tre hovedfeilene Graham fant – feilkoding av ett fylkes behandlingsår, utelatelse av datainnsamling for flere potensielt relevante valg i alltid behandlede stater, og ikke bruk av ikke-presidentvalg for å beregne valgdeltakelse – ligner på de typen feil et menneske kan gjøre ved første gjennomgang av denne artikkelen, og hadde bare liten effekt på de påfølgende estimatene. På den annen side, da Claude prøvde å lage nye analyser som ikke var enkle utvidelser av den opprinnelige artikkelen, gjorde det det verre. Ingen hallusinasjoner eller sprø feil, per se, men det drev bort fra prompten og ga resultater vi fant var dårlig gjennomtenkte. Min tolkning: –AI i dag er allerede en ekstremt kraftig måte å raskt oppdatere og utvide velbevarte, enkle empiriske artikler på. –For å utføre empirisk samfunnsvitenskapelig forskning godt, trenger den absolutt veiledning og tilsyn fra menneskelige eksperter. Vi vil dele bredere tanker om dette arbeidet, hva vi lærte ved å gjøre det, og hvor vi går videre herfra neste uke på bloggen min. Takk til de mange, mange som tok kontakt, stilte spørsmål og ga tilbakemeldinger på dette prosjektet.
Andy Hall
Andy Hall4. jan., 08:01
Her er bevis på at Claude Code kan skrive en hel empirisk statsvitenskapelig artikkel. For å bekrefte påstanden min om at AI-agenter kommer for statsvitenskap «som et godstog», fikk jeg i dag Claude Code til å fullstendig replikere og utvide en gammel artikkel jeg har som estimerer effekten av universell postavstemning på valgdeltakelse og valgresultat... I praksis på én gang. Etter nøye oppfordring, Claude Code: (1) Lastet ned det gamle papirets repo og replikerte tidligere resultater, og oversatte vår gamle Stata-kode til Python (2) Crawlet nettet for å få oppdaterte offisielle valg- og folketellingsdata (3) Kjørte nye analyser som utvidet resultatene til 2024 (4) Opprettet nye tabeller og figurer (5) Utførte en litteraturgjennomgang (6) Skrev en helt ny artikkel (7) Flyttet hele greia til et nytt github-repo Hele greia tok omtrent en time. Dette er et sinnssykt paradigmeskifte i hvordan empirisk arbeid utføres. Det bekrefter også poenget som flere, inkludert @BrendanNyhan, tok opp i går--- det blir spesielt lett å skalere observasjonsforskning med AI. Takk til @alexolegimas, @arthur_spirling og mange andre som ga meg tilbakemeldinger. .
En fullstendig gjennomgang er tilgjengelig her: Det er interessant å kombinere med nyere skriving fra @joshgans @alexolegimas @deanwball og andre!
268