Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Можем ли мы использовать стенограммы агентов для понимания возможностей агентов🤔? Оказывается, возможно, что кодирование стенограмм агентов может установить верхнюю границу наших приростов производительности от ИИ.
Больше об этом в моем последнем исследовании @METR_Evals в 🧵

Фактор экономии времени = (время без AI) / (время с AI) на задачах, содержащихся в транскриптах.
Я оцениваю время без AI с помощью судьи LLM и рассчитываю время с AI, проверяя, есть ли сообщение, напечатанное человеком, в каждом 10-минутном окне, затем суммирую все активные окна.
Однако это в значительной степени завышает истинный прирост производительности‼️
1. Люди используют ИИ для задач с низкой ценностью, которые они в противном случае не стали бы выполнять. Мы называем их задачами Cadillac
2. Мы выполняем много задач без ИИ и используем ИИ только для задач, где ожидаем, что он будет полезен

22 янв. 2026 г.
Cadillac tasks: I believe many estimates of LLM productivity boosts are over-estimates because people are using them for cadillac tasks: things that would take you a long time unaided, but have only marginal additional value.
3. Судья LLM склонен переоценивать, сколько времени потребовалось бы человеку на выполнение той же задачи без AI из-за a) специализации работников, b) ограниченной способности обнаруживать неудачные задачи, c) накладных расходов, вызванных агентом, и d) прогресса, потерянного между транскрипциями и т.д.
Интересно, что я также нахожу, что фактор экономии времени коррелирует с количеством агентов, с которыми люди работают параллельно. Это предполагает, что будущие исследования по повышению эффективности и транскрипции должны должным образом учитывать параллельность агентов.

470
Топ
Рейтинг
Избранное
