Pouvons-nous utiliser les transcriptions des agents pour comprendre les capacités des agents🤔 ? Il s'avère que, peut-être, coder les transcriptions des agents peut limiter nos gains de productivité grâce à l'IA. Plus d'infos sur mes dernières recherches @METR_Evals dans 🧵
Facteur d'économie de temps = (temps sans AI) / (temps avec AI) sur les tâches contenues dans les transcriptions J'estime le temps sans AI avec un juge LLM, et je calcule le temps avec AI en vérifiant s'il y a un message tapé par un humain dans chaque fenêtre de 10 minutes, puis je fais la somme de toutes les fenêtres actives.
Cependant, cela surestime l'augmentation réelle de la productivité de plusieurs manières‼️ 1. Les gens utilisent des IA pour des tâches à faible valeur qu'ils ne feraient pas autrement. Nous les appelons des tâches Cadillac 2. Nous effectuons de nombreuses tâches sans IA, et n'utilisons l'IA que pour les tâches où nous pensons qu'elle sera utile
tom cunningham
tom cunningham22 janv. 2026
Cadillac tasks: I believe many estimates of LLM productivity boosts are over-estimates because people are using them for cadillac tasks: things that would take you a long time unaided, but have only marginal additional value.
3. Le juge LLM a tendance à surestimer le temps qu'une personne aurait mis pour accomplir la même tâche sans AI en raison de a) la spécialisation des travailleurs, b) la capacité limitée à détecter les tâches échouées, c) la surcharge induite par l'agent, et d) le progrès annulé entre les transcriptions, etc.
Il est intéressant de noter que je trouve également que le facteur d'économie de temps est corrélé au nombre d'agents avec lesquels les gens travaillent en parallèle. Cela suggère que les études futures sur l'augmentation et les transcriptions devraient correctement prendre en compte la concurrence des agents.
476