Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
В этой статье показано, почему масштабирование агентов с большим количеством демонстраций — это тупиковый путь.
EvoCUA делает простое, но неудобное утверждение: агенты компьютерного использования не терпят неудач, потому что они «недостаточно умные».
Они терпят неудачи, потому что их обучают как попугаев, а не как учащихся.
Большинство GUI-агентов копируют статические следы. Это работает для коротких задач. Это рушится в момент, когда требуется планирование, восстановление или суждение.
EvoCUA переворачивает парадигму от масштабирования данных к масштабированию опыта.
Вместо того чтобы собирать больше скриншотов и скриптов, он создает замкнутый цикл:
• автоматически синтезировать задачи
• прикреплять исполняемые валидаторы (без расплывчатых вознаграждений)
• запускать массовые параллельные развертывания в песочнице
• сравнивать траектории успеха и неудачи
• усиливать то, что работает, переписывать то, что ломается
Неудачи здесь не являются шумом.
Это самый ценный сигнал.
Модель учится, где она ошиблась, почему и как это исправить, а затем усваивает это исправление.
Это важно, потому что GUI-агенты умирают на границах:
непредвиденные состояния пользовательского интерфейса
долгосрочные рабочие процессы
ошибки по времени, порядку и восстановлению
...

Топ
Рейтинг
Избранное
