Această lucrare arată de ce scalarea agenților cu mai multe demo-uri este un impas. EvoCUA face o afirmație simplă, dar incomodă: agenții de utilizare a calculatoarelor nu eșuează pentru că nu sunt "suficient de inteligenți". Ei eșuează pentru că sunt dresați ca niște papagali, nu ca niște elevi. Majoritatea agenților GUI copiază urmele statice. Asta funcționează pentru sarcini scurte. Se prăbușește în momentul în care ai nevoie de planificare, recuperare sau judecată. EvoCUA schimbă paradigma de la scalarea datelor la scalarea experienței. În loc să adune mai multe capturi de ecran și scripturi, construiește un cerc închis: • sintetizarea automată a sarcinilor • atașează validatori executabili (fără recompense vagi) • desfășurarea unor implementări masive paralele sandbox • compară traiectoriile succesului versus eșecului • să întărească ce funcționează, să rescrie ce se strică Eșecurile nu sunt zgomot aici. Sunt semnalul de cea mai mare valoare. Modelul învață unde a greșit, de ce și cum să o repare, apoi internalizează acea corecție. Acest lucru contează pentru că agenții GUI mor la granițe: Stări UI neașteptate Fluxuri de lucru pe termen lung Erori de sincronizare, comandă și recuperare ...