Ця стаття показує, чому масштабування агентів більшою кількістю демо — це глухий кут. EvoCUA висуває просту, але незручну заяву: агенти, які користуються комп'ютером, не зазнають поразки лише тому, що вони «недостатньо розумні». Вони зазнають невдачі, бо їх навчають як папуг, а не учнів. Більшість GUI-агентів копіюють статичні трасування. Це працює для коротких завдань. Вона руйнується в момент, коли потрібно планувати, відновлюватися або оцінювати. EvoCUA змінює парадигму з масштабування даних на масштабування досвіду. Замість того, щоб збирати більше скріншотів і скриптів, він створює замкнений цикл: • автоматично синтезувати завдання • прикріпити виконувані валідатори (без нечітких винагород) • запуск масштабних паралельних пісочниць • порівняння траєкторій успіху та невдачі • підкріпити те, що працює, переписати те, що ламається Невдачі тут — це не шум. Вони — найцінніший сигнал. Модель вивчає місце, чому і як це виправити, а потім засвоює цю корекцію. Це важливо, бо GUI-агенти гинуть на межах: Несподівані UI стани Робочі процеси з довготривалим горизонтом Помилки у таймінгу, порядку та відновленні ...