Можем ли мы использовать стенограммы агентов для понимания возможностей агентов🤔? Оказывается, возможно, что кодирование стенограмм агентов может установить верхнюю границу наших приростов производительности от ИИ. Больше об этом в моем последнем исследовании @METR_Evals в 🧵
Фактор экономии времени = (время без AI) / (время с AI) на задачах, содержащихся в транскриптах. Я оцениваю время без AI с помощью судьи LLM и рассчитываю время с AI, проверяя, есть ли сообщение, напечатанное человеком, в каждом 10-минутном окне, затем суммирую все активные окна.
Однако это в значительной степени завышает истинный прирост производительности‼️ 1. Люди используют ИИ для задач с низкой ценностью, которые они в противном случае не стали бы выполнять. Мы называем их задачами Cadillac 2. Мы выполняем много задач без ИИ и используем ИИ только для задач, где ожидаем, что он будет полезен
tom cunningham
tom cunningham22 янв. 2026 г.
Cadillac tasks: I believe many estimates of LLM productivity boosts are over-estimates because people are using them for cadillac tasks: things that would take you a long time unaided, but have only marginal additional value.
3. Судья LLM склонен переоценивать, сколько времени потребовалось бы человеку на выполнение той же задачи без AI из-за a) специализации работников, b) ограниченной способности обнаруживать неудачные задачи, c) накладных расходов, вызванных агентом, и d) прогресса, потерянного между транскрипциями и т.д.
Интересно, что я также нахожу, что фактор экономии времени коррелирует с количеством агентов, с которыми люди работают параллельно. Это предполагает, что будущие исследования по повышению эффективности и транскрипции должны должным образом учитывать параллельность агентов.
470