Este artigo mostra por que escalar agentes com mais demos é um beco sem saída. A EvoCUA faz uma afirmação simples, mas desconfortável: agentes de uso de computador não falham porque "não são inteligentes o suficiente." Eles falham porque são treinados como papagaios, não como aprendizes. A maioria dos agentes da interface gráfica copia traços estáticos. Isso funciona para tarefas curtas. Ele desaba no momento em que você precisa de planejamento, recuperação ou julgamento. O EvoCUA inverte o paradigma da escalabilidade de dados para a escalabilidade de experiências. Em vez de coletar mais capturas de tela e scripts, ele constrói um ciclo fechado: • sintetizar tarefas automaticamente • anexar validadores executáveis (sem recompensas vagas) • executar grandes implementações paralelas de sandbox • comparar trajetórias de sucesso versus fracasso • reforçar o que funciona, reescrever o que quebra Falhas aqui não são barulho. Eles são o sinal de maior valor. O modelo aprende onde errou, por quê e como corrigir, e então internaliza essa correção. Isso importa porque agentes de interface gráfica morrem nas fronteiras: Estados inesperados da UI Fluxos de trabalho de longo prazo Erros de tempo, pedido e recuperação ...