Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Podemos usar transcrições de agentes para entender as capacidades dos agentes🤔? Acontece que, talvez, codificar transcrições de agentes possa limitar os nossos ganhos de produtividade com a IA.
Mais sobre a minha pesquisa mais recente @METR_Evals em 🧵

Fator de economia de tempo = (tempo sem AI) / (tempo com AI) nas tarefas contidas nas transcrições
Eu estimo o tempo sem AI com um juiz LLM e calculo o tempo com AI verificando se há uma mensagem digitada por um humano em cada janela de 10 minutos, depois somo todas as janelas ativas.
No entanto, isso superestima o verdadeiro aumento de produtividade de muitas maneiras‼️
1. As pessoas usam AIs em tarefas de baixo valor que de outra forma não fariam. Chamamos a essas tarefas de tarefas Cadillac
2. Realizamos muitas tarefas sem AI e usamos AI apenas nas tarefas onde esperamos que seja útil

22/01/2026
Cadillac tasks: I believe many estimates of LLM productivity boosts are over-estimates because people are using them for cadillac tasks: things that would take you a long time unaided, but have only marginal additional value.
3. O juiz LLM tende a superestimar quanto tempo uma pessoa teria levado para realizar a mesma tarefa sem AI devido a) especialização do trabalhador, b) capacidade limitada de detectar tarefas falhadas, c) sobrecarga induzida pelo agente, e d) progresso desfeito entre transcrições, etc.
Curiosamente, também considero que o fator de economia de tempo está correlacionado com o número de agentes com os quais as pessoas trabalham em paralelo. Isso sugere que futuros estudos de aumento e transcrição devem levar em conta adequadamente a concorrência de agentes.

475
Top
Classificação
Favoritos
