Putem folosi transcrierile agenților pentru a înțelege capabilitățile🤔 agenților? Se pare că, poate, transcrierile agenților de codificare pot limita superioară câștigurile noastre de productivitate din AI. Mai multe despre cele mai recente cercetări ale mele @METR_Evals în 🧵
Factor de economisire de timp = (timp fără AI) / (timp cu AI) pentru sarcinile conținute în transcrieri Estimez timpul fără AI cu un judecător LLM și calculez timpul cu AI uitându-mă dacă există un mesaj tastat de om la fiecare fereastră de 10 minute, apoi însumez toate ferestrele active.
Totuși, acest lucru supraestimează creșterea reală a productivității în multe privințe! !️ 1. Oamenii folosesc AI-uri pentru sarcini de valoare redusă pe care altfel nu le-ar face. Le numim sarcini Cadillac 2. Facem multe sarcini fără AI și folosim AI doar la sarcinile unde se așteaptă să fie utile
tom cunningham
tom cunningham22 ian. 2026
Cadillac tasks: I believe many estimates of LLM productivity boosts are over-estimates because people are using them for cadillac tasks: things that would take you a long time unaided, but have only marginal additional value.
3. Judecătorul LLM tinde să supraestimeze cât timp ar fi durat să faci aceeași sarcină fără AI, din cauza a) specializării lucrătorilor, b) capacității limitate de a detecta sarcini eșuate, c) suprasolicitarea cauzată de agent și d) progresul nefăcut între transcrieri, etc
Interesant este că și factorul economisit de timp este corelat cu numărul de agenți cu care lucrează în paralel. Acest lucru sugerează că studiile viitoare de creștere și transcriere ar trebui să țină cont corespunzător de concurența cu agenții.
466