Мы провели рандомизированное контролируемое исследование, чтобы выяснить, насколько быстро инструменты ИИ ускоряют опытных разработчиков с открытым исходным кодом. Результаты нас удивили: разработчики думали, что они работают на 20% быстрее с инструментами ИИ, но на самом деле они были на 19% медленнее, когда им был доступен ИИ, чем когда его не было.
Мы наняли 16 опытных разработчиков с открытым исходным кодом для работы над 246 реальными задачами в их собственных репозиториях (в среднем 22k+ звезд, 1M+ строк кода). Мы случайным образом назначили каждую задачу либо с разрешением на использование ИИ (обычно Cursor Pro с Claude 3.5/3.7), либо без помощи ИИ.
В начале исследования разработчики прогнозировали, что их работа ускорится на 24%. После выполнения работы они оценили, что их работа ускорилась на 20%. Но оказалось, что на самом деле их работа замедлилась на 19%.
Когда ИИ разрешен, разработчики тратят меньше времени на активное кодирование и поиск информации, а вместо этого тратят время на взаимодействие с ИИ, ожидание/обзор выводов ИИ и бездействие. Мы не находим единственной причины замедления — это вызвано сочетанием факторов.
Почему мы провели это исследование? Бенчмарки AI-агентов имеют ограничения — они замкнуты, используют алгоритмическую оценку и не имеют живого человеческого взаимодействия. Это может затруднить прямое определение реального воздействия. Если мы хотим создать систему раннего предупреждения о том, ускоряется ли НИОКР в области ИИ самим ИИ или даже автоматизируется, было бы полезно иметь возможность напрямую измерять это в реальных инженерных испытаниях, а не полагаться на прокси, такие как бенчмарки, или даже на более шумную информацию, такую как анекдоты.
Что мы можем вынести? 1. Похоже, что для некоторых важных настроек недавние инструменты ИИ не увеличили продуктивность (и, возможно, даже снизили её). 2. Самостоятельные отчеты о повышении скорости ненадежны — чтобы понять влияние ИИ на продуктивность, нам нужны эксперименты в реальных условиях.
575,87K