Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Можем ли мы использовать стенограммы агентов для понимания возможностей агентов🤔? Оказывается, возможно, что кодирование стенограмм агентов может установить верхнюю границу наших приростов производительности от ИИ. Больше об этом в моем последнем исследовании @METR_Evals в 🧵

Фактор экономии времени = (время без AI) / (время с AI) на задачах, содержащихся в транскриптах. Я оцениваю время без AI с помощью судьи LLM и рассчитываю время с AI, проверяя, есть ли сообщение, напечатанное человеком, в каждом 10-минутном окне, затем суммирую все активные окна.

Однако это в значительной степени завышает истинный прирост производительности‼️ 1. Люди используют ИИ для задач с низкой ценностью, которые они в противном случае не стали бы выполнять. Мы называем их задачами Cadillac 2. Мы выполняем много задач без ИИ и используем ИИ только для задач, где ожидаем, что он будет полезен

3. Судья LLM склонен переоценивать, сколько времени потребовалось бы человеку на выполнение той же задачи без AI из-за a) специализации работников, b) ограниченной способности обнаруживать неудачные задачи, c) накладных расходов, вызванных агентом, и d) прогресса, потерянного между транскрипциями и т.д.

Интересно, что я также нахожу, что фактор экономии времени коррелирует с количеством агентов, с которыми люди работают параллельно. Это предполагает, что будущие исследования по повышению эффективности и транскрипции должны должным образом учитывать параллельность агентов.

470

Топ

Рейтинг

Избранное