Kan vi använda agenttranskriptioner för att förstå agenters kapaciteter🤔? Det visar sig att kanske utskrifter av kodningsagenter kan övergränsa våra produktivitetsvinster från AI. Mer om min senaste forskning @METR_Evals i 🧵
Tidsbesparingsfaktor = (tid utan AI) / (tid med AI) på uppgifter som finns i transkriptionerna Jag uppskattar tiden utan AI med en LLM-domare och beräknar tiden med AI genom att titta på om det finns ett meddelande skrivet av människor i var 10-minutersperiod, och summerar sedan alla aktiva fönster.
Men detta överskattar verklig produktivitetsökning på många sätt! !️ 1. Folk använder AI på lågvärdiga uppgifter som de annars inte skulle göra. Vi kallar dem Cadillac-uppgifter 2. Vi gör många uppgifter utan AI och använder AI endast för uppgifter där de förväntar sig att det ska vara hjälpsamt
tom cunningham
tom cunningham22 jan. 2026
Cadillac tasks: I believe many estimates of LLM productivity boosts are over-estimates because people are using them for cadillac tasks: things that would take you a long time unaided, but have only marginal additional value.
3. LLM-domare tenderar att överskatta hur lång tid man skulle ha tagit att göra samma uppgift utan AI på grund av a) arbetarspecialisering, b) begränsad förmåga att upptäcka misslyckade uppgifter, c) agentinducerad overhead och d) framsteg som inte gjorts mellan utskrifter, etc
Intressant nog tycker jag också att tidsbesparingsfaktorn korrelerar med antalet agenter som folk arbetar med parallellt. Detta antyder att framtida upphöjnings- och transkriptstudier bör ta hänsyn till agentens samtidighet.
479