DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Possiamo utilizzare le trascrizioni degli agenti per comprendere le capacità degli agenti🤔? Si scopre che, forse, codificare le trascrizioni degli agenti può fissare un limite superiore ai nostri guadagni di produttività dall'AI. Maggiori informazioni sulla mia ultima ricerca @METR_Evals in 🧵

Fattore di risparmio di tempo = (tempo senza AI) / (tempo con AI) sui compiti contenuti nei trascritti Stimo il tempo senza AI con un giudice LLM e calcolo il tempo con AI verificando se c'è un messaggio digitato da un umano in ogni finestra di 10 minuti, quindi sommo tutte le finestre attive.

Tuttavia, questo sovrastima il vero aumento di produttività in molti modi‼️ 1. Le persone usano le AI per compiti a basso valore che altrimenti non farebbero. Li chiamiamo compiti Cadillac 2. Facciamo molti compiti senza AI e usiamo l'AI solo per compiti in cui ci aspettiamo che sia utile

3. Il giudice LLM tende a sovrastimare quanto tempo ci sarebbe voluto per completare lo stesso compito senza AI a causa di a) specializzazione dei lavoratori, b) capacità limitata di rilevare compiti falliti, c) sovraccarico indotto dall'agente e d) progressi annullati tra le trascrizioni, ecc.

È interessante notare che trovo anche che il fattore di risparmio di tempo sia correlato al numero di agenti con cui le persone lavorano in parallelo. Questo suggerisce che i futuri studi di miglioramento e trascrizione dovrebbero tenere adeguatamente conto della concorrenza degli agenti.

461

Principali

Ranking

Preferiti