Voimmeko käyttää agentin transkriptioita agentin kykyjen🤔 ymmärtämiseen? Kävi ilmi, että koodausagentin transkriptit voivat ylhäällä tekoälyn tuottamien tuottavuushyötyjen rajalle. Lisää viimeisimmästä tutkimuksestani @METR_Evals 🧵
Ajansäästökerroin = (aika ilman tekoälyä) / (aika tekoälyn kanssa) opintosuoritusotteissa mainituissa tehtävissä Arvioin ajan ilman tekoälyä LLM-tuomarin kanssa ja lasken ajan tekoälyllä katsomalla, onko jokaisessa 10 minuutin ikkunassa ihmisen kirjoittama viesti, ja lasken sitten kaikki aktiiviset ikkunat yhteen.
Tämä kuitenkin yliarvioi todellisen tuottavuuden nousun monin tavoin! !️ 1. Ihmiset käyttävät tekoälyjä vähäarvoisissa tehtävissä, joita he eivät muuten tekisi. Kutsumme niitä Cadillac-tehtäviksi 2. Teemme monia tehtäviä ilman tekoälyä, ja käytämme tekoälyä vain tehtävissä, joissa he odottavat sen olevan hyödyllisiä
tom cunningham
tom cunningham22.1.2026
Cadillac tasks: I believe many estimates of LLM productivity boosts are over-estimates because people are using them for cadillac tasks: things that would take you a long time unaided, but have only marginal additional value.
3. LLM-tuomari yleensä yliarvioi, kuinka kauan saman tehtävän tekeminen olisi kestänyt ilman tekoälyä, koska a) työntekijöiden erikoistuminen, b) epäonnistuneiden tehtävien havaitsemiskyky on rajallinen, c) agenttien aiheuttama ylikuorma ja d) transkriptioiden välinen edistyminen on peruutettu jne
Mielenkiintoista kyllä, huomaan myös, että ajansäästötekijä korreloi siihen, kuinka monien agenttien kanssa ihmiset työskentelevät rinnakkain. Tämä viittaa siihen, että tulevat uplift-tutkimukset ja transkriptiotutkimukset tulisi ottaa asianmukaisesti huomioon agenttien samanaikaisuus.
472