Uusi antropinen tutkimus: Tekoälyagenttien autonomian mittaaminen käytännössä. Analysoimme miljoonia vuorovaikutuksia Claude Codessa ja API:ssamme ymmärtääksemme, kuinka paljon autonomiaa ihmiset myöntävät agenteille, missä heidät otetaan käyttöön ja millaisia riskejä ne voivat aiheuttaa. Lue lisää:
Agentteja otetaan jo käyttöön eri konteksteissa, jotka vaihtelevat sähköpostin triagesta kyberturvallisuustutkimukseen. Tämän spektrin ymmärtäminen on ratkaisevan tärkeää turvallisen käyttöönoton kannalta, mutta tiedämme yllättävän vähän siitä, miten ihmiset oikeasti käyttävät agentteja todellisessa maailmassa.
Useimmat Claude-koodin vuorot ovat lyhyitä (mediaani ~45 sekuntia). Mutta pisimmät käännökset näyttävät, mihin autonomia on menossa. Kolmessa kuukaudessa 99,9. prosenttipisteen käännöksen kesto lähes kaksinkertaistui, alle 25 minuutista yli 45 minuuttiin. Tämä kasvu on sujuvaa mallijulkaisujen välillä.
Kun käyttäjät saavat kokemusta, heidän valvontastrategiansa muuttuu. Uudet käyttäjät hyväksyvät jokaisen toiminnon erikseen. 750 istunnossa yli 40 % istunnoista on täysin automaattisesti hyväksyttyjä.
Mutta keskeytykset lisääntyvät kokemuksen myötä. Uudet käyttäjät keskeyttävät Claude-koodin 5 % vuoroista, kun taas kokeneemmilla käyttäjillä luku on 9 %. Tämä viittaa siirtymiseen jokaisen toimenpiteen hyväksymisestä delegointiin ja keskeyttämiseen tarvittaessa.
Claude Code kannustaa myös valvontaan pysähtymällä esittämään kysymyksiä. Monimutkaisissa tehtävissä Claude Code pysähtyy selvennyksen vuoksi yli kaksinkertaisen määrän kuin ihmiset keskeyttävät. Mallien kouluttaminen tunnistamaan epävarmuus on tärkeä, aliarvostettu turvallisuusominaisuus.
Suurin osa agenttien toiminnoista API:ssamme on matalan riskin. 73 % työkalukutsuista näyttää olevan ihmisen mukana silmukassa, ja vain 0,8 % on peruuttamattomia. Mutta rajaseudulla näemme agenttien toimivan turvallisuusjärjestelmien, taloudellisten tapahtumien ja tuotantojen käyttöönottojen parissa (vaikka jotkut saattavat olla arvioituja).
Ohjelmistokehitys muodostaa ~50 % API:n agenttityökalukutsuista, mutta näemme uutta käyttöä myös muilla aloilla. Kun riskien ja autonomian rajat laajenevat, käyttöönoton jälkeinen seuranta on välttämätöntä. Kannustamme muita mallikehittäjiä laajentamaan tätä tutkimusta.
Tämän työn keskeinen opetus on, että autonomia rakennetaan yhdessä mallin, käyttäjän ja tuotteen kesken. Sitä ei voi täysin kuvailla pelkästään esisijoitusarvioinneilla. Täydelliset tiedot sekä suosituksemme kehittäjille ja päättäjille löydät blogista:
197