Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Possiamo utilizzare le trascrizioni degli agenti per comprendere le capacità degli agenti🤔? Si scopre che, forse, codificare le trascrizioni degli agenti può fissare un limite superiore ai nostri guadagni di produttività dall'AI.
Maggiori informazioni sulla mia ultima ricerca @METR_Evals in 🧵

Fattore di risparmio di tempo = (tempo senza AI) / (tempo con AI) sui compiti contenuti nei trascritti
Stimo il tempo senza AI con un giudice LLM e calcolo il tempo con AI verificando se c'è un messaggio digitato da un umano in ogni finestra di 10 minuti, quindi sommo tutte le finestre attive.
Tuttavia, questo sovrastima il vero aumento di produttività in molti modi‼️
1. Le persone usano le AI per compiti a basso valore che altrimenti non farebbero. Li chiamiamo compiti Cadillac
2. Facciamo molti compiti senza AI e usiamo l'AI solo per compiti in cui ci aspettiamo che sia utile

22 gen 2026
Cadillac tasks: I believe many estimates of LLM productivity boosts are over-estimates because people are using them for cadillac tasks: things that would take you a long time unaided, but have only marginal additional value.
3. Il giudice LLM tende a sovrastimare quanto tempo ci sarebbe voluto per completare lo stesso compito senza AI a causa di a) specializzazione dei lavoratori, b) capacità limitata di rilevare compiti falliti, c) sovraccarico indotto dall'agente e d) progressi annullati tra le trascrizioni, ecc.
È interessante notare che trovo anche che il fattore di risparmio di tempo sia correlato al numero di agenti con cui le persone lavorano in parallelo. Questo suggerisce che i futuri studi di miglioramento e trascrizione dovrebbero tenere adeguatamente conto della concorrenza degli agenti.

461
Principali
Ranking
Preferiti
