¿Podemos usar las transcripciones de agentes para entender las capacidades de los agentes🤔? Resulta que, quizás codificar las transcripciones de los agentes puede establecer un límite superior a nuestras ganancias de productividad gracias a la IA. Más sobre mi última investigación en @METR_Evals en 🧵
Factor de ahorro de tiempo = (tiempo sin IA) / (tiempo con IA) en tareas contenidas en las transcripciones Estimo el tiempo sin IA con un juez LLM y calculo el tiempo con IA observando si hay un mensaje escrito por un humano en cada ventana de 10 minutos, luego sumo todas las ventanas activas.
Sin embargo, esto sobreestima el verdadero aumento de productividad de muchas maneras‼️ 1. La gente utiliza AIs en tareas de bajo valor que de otro modo no harían. Las llamamos tareas Cadillac 2. Realizamos muchas tareas sin AI, y usamos AI solo en tareas donde esperan que sea útil
tom cunningham
tom cunningham22 ene 2026
Cadillac tasks: I believe many estimates of LLM productivity boosts are over-estimates because people are using them for cadillac tasks: things that would take you a long time unaided, but have only marginal additional value.
3. El juez de LLM tiende a sobreestimar cuánto tiempo habría tomado hacer la misma tarea sin AI debido a a) especialización del trabajador, b) capacidad limitada para detectar tareas fallidas, c) sobrecarga inducida por el agente, y d) progreso deshecho entre transcripciones, etc.
Curiosamente, también encuentro que el factor de ahorro de tiempo está correlacionado con el número de agentes con los que las personas trabajan en paralelo. Esto sugiere que los futuros estudios de mejora y transcripción deberían tener en cuenta adecuadamente la concurrencia de agentes.
481