Kan vi bruke agenttranskripsjoner for å forstå agentens evner🤔? Det viser seg at kanskje transkripsjoner av kodeagenter kan overgrense for produktivitetsgevinstene våre fra AI. Mer om min siste forskning @METR_Evals i 🧵
Tidsbesparelsesfaktor = (tid uten AI) / (tid med AI) på oppgaver i transkripsjonene Jeg estimerer tiden uten AI med en LLM-dommer, og beregner tiden med AI ved å se på om det er en menneskeskrevet melding i hvert 10-minutters vindu, og summerer deretter alle aktive vinduer.
Dette overvurderer imidlertid reell produktivitetsøkning på mange måter! !️ 1. Folk bruker AI-er på lavverdige oppgaver som de ellers ikke ville gjort. Vi kaller dem Cadillac-oppgaver 2. Vi gjør mange oppgaver uten AI, og bruker AI kun på oppgaver der de forventer at det skal være nyttig
tom cunningham
tom cunningham22. jan. 2026
Cadillac tasks: I believe many estimates of LLM productivity boosts are over-estimates because people are using them for cadillac tasks: things that would take you a long time unaided, but have only marginal additional value.
3. LLM-dommeren har en tendens til å overvurdere hvor lang tid man ville brukt på å gjøre samme oppgave uten AI på grunn av a) arbeiderspesialisering, b) begrenset evne til å oppdage mislykkede oppgaver, c) agentindusert overhead, og d) fremgang som ikke ble gjort mellom transkripsjoner, osv
Interessant nok opplever jeg også at tidsbesparelsen henger sammen med antall agenter folk jobber med parallelt. Dette antyder at fremtidige oppgraderings- og transkripsjonsstudier bør ta hensyn til agentens samtidighet.
470