Suoritimme satunnaistetun kontrolloidun kokeen nähdäksemme, kuinka paljon tekoälyn koodaustyökalut nopeuttavat kokeneita avoimen lähdekoodin kehittäjiä. Tulokset yllättivät meidät: Kehittäjät luulivat olevansa 20 % nopeampia tekoälytyökalujen kanssa, mutta todellisuudessa he olivat 19 % hitaampia tekoälyn kanssa kuin silloin, kun heillä ei ollut.
Rekrytoimme 16 kokenutta avoimen lähdekoodin kehittäjää työskentelemään 246 todellisen tehtävän parissa omissa arkistoissaan (keskimäärin 22k+ tähteä, 1M+ koodiriviä). Jaoimme satunnaisesti jokaisen tehtävän joko sallimaan tekoälyn (tyypillisesti Cursor Pro ja Claude 3.5/3.7) tai kieltämään tekoälyn avun.
Tutkimuksen alussa kehittäjät ennustivat nopeutuvansa 24 prosenttia. Varsinaisen työn jälkeen he arvioivat, että heitä oli nopeutettu 20 prosenttia. Mutta kävi ilmi, että niitä itse asiassa hidastettiin 19 %.
Kun tekoäly on sallittua, kehittäjät käyttävät vähemmän aikaa aktiiviseen koodaamiseen ja tiedon etsimiseen, vaan käyttävät sen sijaan aikaa tekoälyn kehottamiseen, tekoälyn tulosten odottamiseen/tarkistamiseen ja toimettomuuteen. Emme löydä yhtä ainoaa syytä hidastumiselle – se johtuu useiden tekijöiden yhdistelmästä.
Miksi teimme tämän tutkimuksen? Tekoälyagenttien vertailuarvoilla on rajoituksia – ne ovat itsenäisiä, käyttävät algoritmista pisteytystä, ja niistä puuttuu reaaliaikainen ihmisten vuorovaikutus. Tämä voi vaikeuttaa todellisen vaikutuksen suoraa päättelemistä. Jos haluamme varhaisen varoitusjärjestelmän siitä, nopeuttaako tekoälyn tutkimus- ja kehitystyötä tekoäly itse vai onko se jopa automatisoitu, olisi hyödyllistä pystyä mittaamaan tätä suoraan todellisissa insinöörikokeissa sen sijaan, että luottaisimme vertailuarvojen kaltaisiin proxy-arvoihin tai vielä meluisampaan tietoon, kuten anekdootteihin.
Mitä otamme pois? 1. Näyttää todennäköiseltä, että joissakin tärkeissä asetuksissa viimeaikaiset tekoälytyökalut eivät ole lisänneet tuottavuutta (ja voivat itse asiassa vähentää sitä). 2. Itse raportoidut nopeutumisesta ovat epäluotettavia – tekoälyn vaikutuksen ymmärtämiseksi tuottavuuteen tarvitsemme kokeita luonnossa.
401,34K