DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Putem folosi transcrierile agenților pentru a înțelege capabilitățile🤔 agenților? Se pare că, poate, transcrierile agenților de codificare pot limita superioară câștigurile noastre de productivitate din AI. Mai multe despre cele mai recente cercetări ale mele @METR_Evals în 🧵

Factor de economisire de timp = (timp fără AI) / (timp cu AI) pentru sarcinile conținute în transcrieri Estimez timpul fără AI cu un judecător LLM și calculez timpul cu AI uitându-mă dacă există un mesaj tastat de om la fiecare fereastră de 10 minute, apoi însumez toate ferestrele active.

Totuși, acest lucru supraestimează creșterea reală a productivității în multe privințe! !️ 1. Oamenii folosesc AI-uri pentru sarcini de valoare redusă pe care altfel nu le-ar face. Le numim sarcini Cadillac 2. Facem multe sarcini fără AI și folosim AI doar la sarcinile unde se așteaptă să fie utile

3. Judecătorul LLM tinde să supraestimeze cât timp ar fi durat să faci aceeași sarcină fără AI, din cauza a) specializării lucrătorilor, b) capacității limitate de a detecta sarcini eșuate, c) suprasolicitarea cauzată de agent și d) progresul nefăcut între transcrieri, etc

Interesant este că și factorul economisit de timp este corelat cu numărul de agenți cu care lucrează în paralel. Acest lucru sugerează că studiile viitoare de creștere și transcriere ar trebui să țină cont corespunzător de concurența cu agenții.

466

Limită superioară

Clasament

Favorite