Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Putem folosi transcrierile agenților pentru a înțelege capabilitățile🤔 agenților? Se pare că, poate, transcrierile agenților de codificare pot limita superioară câștigurile noastre de productivitate din AI.
Mai multe despre cele mai recente cercetări ale mele @METR_Evals în 🧵

Factor de economisire de timp = (timp fără AI) / (timp cu AI) pentru sarcinile conținute în transcrieri
Estimez timpul fără AI cu un judecător LLM și calculez timpul cu AI uitându-mă dacă există un mesaj tastat de om la fiecare fereastră de 10 minute, apoi însumez toate ferestrele active.
Totuși, acest lucru supraestimează creșterea reală a productivității în multe privințe! !️
1. Oamenii folosesc AI-uri pentru sarcini de valoare redusă pe care altfel nu le-ar face. Le numim sarcini Cadillac
2. Facem multe sarcini fără AI și folosim AI doar la sarcinile unde se așteaptă să fie utile

22 ian. 2026
Cadillac tasks: I believe many estimates of LLM productivity boosts are over-estimates because people are using them for cadillac tasks: things that would take you a long time unaided, but have only marginal additional value.
3. Judecătorul LLM tinde să supraestimeze cât timp ar fi durat să faci aceeași sarcină fără AI, din cauza a) specializării lucrătorilor, b) capacității limitate de a detecta sarcini eșuate, c) suprasolicitarea cauzată de agent și d) progresul nefăcut între transcrieri, etc
Interesant este că și factorul economisit de timp este corelat cu numărul de agenți cu care lucrează în paralel. Acest lucru sugerează că studiile viitoare de creștere și transcriere ar trebui să țină cont corespunzător de concurența cu agenții.

466
Limită superioară
Clasament
Favorite
