В этой статье показано, почему масштабирование агентов с большим количеством демонстраций — это тупиковый путь. EvoCUA делает простое, но неудобное утверждение: агенты компьютерного использования не терпят неудач, потому что они «недостаточно умные». Они терпят неудачи, потому что их обучают как попугаев, а не как учащихся. Большинство GUI-агентов копируют статические следы. Это работает для коротких задач. Это рушится в момент, когда требуется планирование, восстановление или суждение. EvoCUA переворачивает парадигму от масштабирования данных к масштабированию опыта. Вместо того чтобы собирать больше скриншотов и скриптов, он создает замкнутый цикл: • автоматически синтезировать задачи • прикреплять исполняемые валидаторы (без расплывчатых вознаграждений) • запускать массовые параллельные развертывания в песочнице • сравнивать траектории успеха и неудачи • усиливать то, что работает, переписывать то, что ломается Неудачи здесь не являются шумом. Это самый ценный сигнал. Модель учится, где она ошиблась, почему и как это исправить, а затем усваивает это исправление. Это важно, потому что GUI-агенты умирают на границах: непредвиденные состояния пользовательского интерфейса долгосрочные рабочие процессы ошибки по времени, порядку и восстановлению ...