DApp Store | Web3 Hub for hendelser og spill

Populære emner

Kan vi bruke agenttranskripsjoner for å forstå agentens evner🤔? Det viser seg at kanskje transkripsjoner av kodeagenter kan overgrense for produktivitetsgevinstene våre fra AI. Mer om min siste forskning @METR_Evals i 🧵

Tidsbesparelsesfaktor = (tid uten AI) / (tid med AI) på oppgaver i transkripsjonene Jeg estimerer tiden uten AI med en LLM-dommer, og beregner tiden med AI ved å se på om det er en menneskeskrevet melding i hvert 10-minutters vindu, og summerer deretter alle aktive vinduer.

Dette overvurderer imidlertid reell produktivitetsøkning på mange måter! !️ 1. Folk bruker AI-er på lavverdige oppgaver som de ellers ikke ville gjort. Vi kaller dem Cadillac-oppgaver 2. Vi gjør mange oppgaver uten AI, og bruker AI kun på oppgaver der de forventer at det skal være nyttig

3. LLM-dommeren har en tendens til å overvurdere hvor lang tid man ville brukt på å gjøre samme oppgave uten AI på grunn av a) arbeiderspesialisering, b) begrenset evne til å oppdage mislykkede oppgaver, c) agentindusert overhead, og d) fremgang som ikke ble gjort mellom transkripsjoner, osv

Interessant nok opplever jeg også at tidsbesparelsen henger sammen med antall agenter folk jobber med parallelt. Dette antyder at fremtidige oppgraderings- og transkripsjonsstudier bør ta hensyn til agentens samtidighet.

470

Topp

Rangering

Favoritter