DApp Store | Web3 Hub for hendelser og spill

Populære emner

Forrige helg postet jeg at Claude Code laget en fullstendig empirisk statsvitenskapsstudie på en time. Mange spurte: men hvor nøyaktig var studien? Svaret: ganske nøyaktig, med noen interessante feil og viktige begrensninger. For å få svaret tilbød Graham Straus vennlig å gjøre en uavhengig, manuell revisjon—samle inn de samme dataene og utvide artikkelen slik Claude gjorde, men uten å bruke noen AI. Her er hva han fant: Claude replikerte den opprinnelige artikkelen nøyaktig, kodet 29/30 CA-fylker korrekt på behandlingstidspunkt, og samlet valgdata som korrelerte >,999 med manuell innsamling. De tre hovedfeilene Graham fant – feilkoding av ett fylkes behandlingsår, utelatelse av datainnsamling for flere potensielt relevante valg i alltid behandlede stater, og ikke bruk av ikke-presidentvalg for å beregne valgdeltakelse – ligner på de typen feil et menneske kan gjøre ved første gjennomgang av denne artikkelen, og hadde bare liten effekt på de påfølgende estimatene. På den annen side, da Claude prøvde å lage nye analyser som ikke var enkle utvidelser av den opprinnelige artikkelen, gjorde det det verre. Ingen hallusinasjoner eller sprø feil, per se, men det drev bort fra prompten og ga resultater vi fant var dårlig gjennomtenkte. Min tolkning: –AI i dag er allerede en ekstremt kraftig måte å raskt oppdatere og utvide velbevarte, enkle empiriske artikler på. –For å utføre empirisk samfunnsvitenskapelig forskning godt, trenger den absolutt veiledning og tilsyn fra menneskelige eksperter. Vi vil dele bredere tanker om dette arbeidet, hva vi lærte ved å gjøre det, og hvor vi går videre herfra neste uke på bloggen min. Takk til de mange, mange som tok kontakt, stilte spørsmål og ga tilbakemeldinger på dette prosjektet.

En fullstendig gjennomgang er tilgjengelig her: Det er interessant å kombinere med nyere skriving fra @joshgans @alexolegimas @deanwball og andre!

268

Topp

Rangering

Favoritter