¿Podemos usar transcripciones de agentes para entender las capacidades🤔 de los agentes? Resulta que, quizás, las transcripciones de agentes codificadores pueden alcanzar un límite superior a nuestras ganancias de productividad con la IA. Más información sobre mi última investigación @METR_Evals en 🧵
Factor de ahorro de tiempo = (tiempo sin IA) / (tiempo con IA) en tareas contenidas en las transcripciones Estimo el tiempo sin IA con un juez de LLM, y calculo el tiempo con IA observando si hay un mensaje escrito por un humano cada ventana de 10 minutos, y luego suma todas las ventanas activas.
Sin embargo, esto sobreestima el verdadero aumento de la productividad en muchos aspectos. !️ 1. La gente utiliza IAs en tareas de bajo valor que de otro modo no harían. Las llamamos tareas Cadillac 2. Realizamos muchas tareas sin IA y usamos IA solo en tareas donde esperan que sea útil
tom cunningham
tom cunningham22 ene 2026
Cadillac tasks: I believe many estimates of LLM productivity boosts are over-estimates because people are using them for cadillac tasks: things that would take you a long time unaided, but have only marginal additional value.
3. El juez de LLM tiende a sobreestimar cuánto tiempo habría tardado uno en hacer la misma tarea sin IA debido a a) especialización del trabajador, b) capacidad limitada para detectar tareas fallidas, c) sobrecarga inducida por el agente, y d) progreso deshecho entre expedientes, etc
Curiosamente, también encuentro que el ahorro de tiempo está correlacionado con el número de agentes con los que la gente trabaja en paralelo. Esto sugiere que los estudios futuros de elevación y transcripción deberían tener en cuenta adecuadamente la concurrencia de agentes.
483