Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Чи можемо ми використовувати транскрипти агентів для розуміння можливостей🤔 агентів? Виявляється, можливо, транскрипти кодувальних агентів можуть перевищити наші прирости продуктивності від ШІ. Більше про мої останні дослідження @METR_Evals у 🧵

Коефіцієнт економії часу = (час без ШІ) / (час із ШІ) на завданнях, зазначених у транскриптах Я оцінюю час без ШІ за допомогою LLM-судді, а за допомогою ШІ — перевіряю, чи є повідомлення, написане людиною, у кожному 10-хвилинному вікні, а потім підсумовую всі активні вікна.

Однак це переоцінює справжнє підвищення продуктивності у багатьох аспектах! !️ 1. Люди використовують ШІ для малоцінних завдань, які інакше не виконували б. Ми називаємо їх завданнями Cadillac. 2. Ми виконуємо багато завдань без ШІ і використовуємо ШІ лише там, де очікують його корисності

3. Суддя LLM схильний переоцінювати, скільки часу знадобилося б виконати те саме завдання без ШІ через а) спеціалізацію працівника, б) обмежену здатність виявляти невдалі завдання, в) накладні витрати, спричинені агентами, і г) скасування прогресу між транскриптами тощо

Цікаво, що я також помітив, що коефіцієнт економії часу корелює з кількістю агентів, з якими люди працюють паралельно. Це свідчить про те, що майбутні дослідження підвищення та транскрипти повинні належним чином враховувати конкурентність агентів.

479

Найкращі

Рейтинг

Вибране