Este artigo mostra por que escalar agentes com mais demonstrações é um beco sem saída. O EvoCUA faz uma afirmação simples, mas desconfortável: agentes de uso de computador não falham porque não são "inteligentes o suficiente". Eles falham porque são treinados como papagaios, não como aprendizes. A maioria dos agentes de interface gráfica (GUI) copia rastros estáticos. Isso funciona para tarefas curtas. Colapsa no momento em que você precisa de planejamento, recuperação ou julgamento. O EvoCUA inverte o paradigma de escalonamento de dados para escalonamento de experiências. Em vez de coletar mais capturas de tela e scripts, ele constrói um ciclo fechado: • sintetizar tarefas automaticamente • anexar validadores executáveis (sem recompensas vagas) • executar grandes lançamentos em sandbox paralelos • comparar trajetórias de sucesso vs falha • reforçar o que funciona, reescrever o que quebra As falhas não são ruído aqui. Elas são o sinal de maior valor. O modelo aprende onde errou, por que e como corrigir, e então internaliza essa correção. Isso é importante porque os agentes GUI morrem nas fronteiras: estados de UI inesperados fluxos de trabalho de longo prazo erros de temporização, ordenação e recuperação ...