Niniejszy dokument pokazuje, dlaczego skalowanie agentów z większą liczbą demonstracji to ślepy zaułek. EvoCUA stawia prostą, ale niewygodną tezę: agenci używający komputerów nie zawodzą, ponieważ są "niewystarczająco inteligentni". Zawodzą, ponieważ są szkoleni jak papugi, a nie jak uczniowie. Większość agentów GUI kopiuje statyczne ślady. Działa to w przypadku krótkich zadań. Zawodzi w momencie, gdy potrzebne jest planowanie, odzyskiwanie lub osąd. EvoCUA zmienia paradygmat z skalowania danych na skalowanie doświadczeń. Zamiast zbierać więcej zrzutów ekranu i skryptów, buduje zamkniętą pętlę: • automatyczne syntezowanie zadań • dołączanie wykonawczych walidatorów (bez niejasnych nagród) • uruchamianie masowych równoległych symulacji w piaskownicy • porównywanie trajektorii sukcesu i porażki • wzmacnianie tego, co działa, przepisywanie tego, co się psuje Porażki nie są tutaj szumem. Są najwyżej wartościowym sygnałem. Model uczy się, gdzie popełnił błąd, dlaczego i jak to naprawić, a następnie internalizuje tę korektę. To ma znaczenie, ponieważ agenci GUI umierają na granicach: nieoczekiwane stany UI workflow o długim horyzoncie błędy czasowe, porządkowe i odzyskiwania ...