We hebben een gerandomiseerde gecontroleerde studie uitgevoerd om te zien hoezeer AI-coderingstools ervaren open-source ontwikkelaars versnellen. De resultaten verrasten ons: Ontwikkelaars dachten dat ze 20% sneller waren met AI-tools, maar ze waren eigenlijk 19% langzamer wanneer ze toegang hadden tot AI dan wanneer dat niet het geval was.
We hebben 16 ervaren open-source ontwikkelaars gerekruteerd om aan 246 echte taken in hun eigen repositories te werken (gemiddeld 22k+ sterren, 1M+ regels code). We hebben elke taak willekeurig toegewezen om ofwel AI toe te staan (typisch Cursor Pro met Claude 3.5/3.7) of AI-hulp niet toe te staan.
Aan het begin van de studie voorspelden ontwikkelaars dat ze met 24% versneld zouden worden. Na het daadwerkelijk uitvoeren van het werk schatten ze in dat ze met 20% versneld waren. Maar het bleek dat ze eigenlijk met 19% vertraagd waren.
Wanneer AI is toegestaan, besteden ontwikkelaars minder tijd aan actief coderen en het zoeken naar informatie, en in plaats daarvan besteden ze tijd aan het aansteken van AI, wachten op/bekijken van AI-uitvoer en inactiviteit. We vinden geen enkele reden voor de vertraging - het wordt gedreven door een combinatie van factoren.
Waarom hebben we deze studie uitgevoerd? AI-agent benchmarks hebben beperkingen - ze zijn zelfvoorzienend, gebruiken algoritmische scoring en missen live menselijke interactie. Dit kan het moeilijk maken om direct de impact in de echte wereld af te leiden. Als we een vroegtijdig waarschuwingssysteem willen voor de vraag of AI R&D wordt versneld door AI zelf, of zelfs geautomatiseerd, zou het nuttig zijn om dit direct te kunnen meten in echte engineerproeven, in plaats van te vertrouwen op proxies zoals benchmarks of zelfs ruisachtige informatie zoals anekdotes.
Wat nemen we mee? 1. Het lijkt waarschijnlijk dat voor sommige belangrijke instellingen recente AI-tools de productiviteit niet hebben verhoogd (en deze mogelijk zelfs verlagen). 2. Zelfrapportages over versnelling zijn onbetrouwbaar—om de impact van AI op de productiviteit te begrijpen, hebben we experimenten in de praktijk nodig.
575,87K