Kunnen we agenttranscripten gebruiken om de mogelijkheden van agenten te begrijpen🤔? Het blijkt dat het coderen van agenttranscripten onze productiviteitswinst door AI kan begrenzen. Meer over mijn laatste onderzoek @METR_Evals in 🧵
Tijdwinstfactor = (tijd zonder AI) / (tijd met AI) op taken die in de transcripties zijn opgenomen. Ik schat de tijd zonder AI met een LLM-rechter en bereken de tijd met AI door te kijken of er een door een mens getypte boodschap is in elk 10-minuten venster, en tel vervolgens alle actieve vensters op.
Echter, dit overschat de werkelijke productiviteitsverhoging op veel manieren‼️ 1. Mensen gebruiken AI voor taken met een lage waarde die ze anders niet zouden doen. We noemen ze Cadillac-taken. 2. We voeren veel taken zonder AI uit en gebruiken AI alleen voor taken waarvan we verwachten dat het nuttig zal zijn.
tom cunningham
tom cunningham22 jan 2026
Cadillac tasks: I believe many estimates of LLM productivity boosts are over-estimates because people are using them for cadillac tasks: things that would take you a long time unaided, but have only marginal additional value.
3. LLM-rechters hebben de neiging om te overschatten hoe lang iemand zou hebben gedaan om dezelfde taak zonder AI uit te voeren vanwege a) specialisatie van de werknemer, b) beperkte mogelijkheid om mislukte taken te detecteren, c) overhead veroorzaakt door de agent, en d) voortgang die verloren gaat tussen transcripties, enz.
Interessant genoeg vind ik ook dat de tijdsbesparingsfactor gecorreleerd is met het aantal agenten waarmee mensen parallel werken. Dit suggereert dat toekomstige uplift- en transcriptstudies agentconcurrentie goed in overweging moeten nemen.
478