Чи можемо ми використовувати транскрипти агентів для розуміння можливостей🤔 агентів? Виявляється, можливо, транскрипти кодувальних агентів можуть перевищити наші прирости продуктивності від ШІ. Більше про мої останні дослідження @METR_Evals у 🧵
Коефіцієнт економії часу = (час без ШІ) / (час із ШІ) на завданнях, зазначених у транскриптах Я оцінюю час без ШІ за допомогою LLM-судді, а за допомогою ШІ — перевіряю, чи є повідомлення, написане людиною, у кожному 10-хвилинному вікні, а потім підсумовую всі активні вікна.
Однак це переоцінює справжнє підвищення продуктивності у багатьох аспектах! !️ 1. Люди використовують ШІ для малоцінних завдань, які інакше не виконували б. Ми називаємо їх завданнями Cadillac. 2. Ми виконуємо багато завдань без ШІ і використовуємо ШІ лише там, де очікують його корисності
tom cunningham
tom cunningham22 січ. 2026 р.
Cadillac tasks: I believe many estimates of LLM productivity boosts are over-estimates because people are using them for cadillac tasks: things that would take you a long time unaided, but have only marginal additional value.
3. Суддя LLM схильний переоцінювати, скільки часу знадобилося б виконати те саме завдання без ШІ через а) спеціалізацію працівника, б) обмежену здатність виявляти невдалі завдання, в) накладні витрати, спричинені агентами, і г) скасування прогресу між транскриптами тощо
Цікаво, що я також помітив, що коефіцієнт економії часу корелює з кількістю агентів, з якими люди працюють паралельно. Це свідчить про те, що майбутні дослідження підвищення та транскрипти повинні належним чином враховувати конкурентність агентів.
479