Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Robert Youssef
Această lucrare arată de ce scalarea agenților cu mai multe demo-uri este un impas.
EvoCUA face o afirmație simplă, dar incomodă: agenții de utilizare a calculatoarelor nu eșuează pentru că nu sunt "suficient de inteligenți".
Ei eșuează pentru că sunt dresați ca niște papagali, nu ca niște elevi.
Majoritatea agenților GUI copiază urmele statice. Asta funcționează pentru sarcini scurte. Se prăbușește în momentul în care ai nevoie de planificare, recuperare sau judecată.
EvoCUA schimbă paradigma de la scalarea datelor la scalarea experienței.
În loc să adune mai multe capturi de ecran și scripturi, construiește un cerc închis:
• sintetizarea automată a sarcinilor
• atașează validatori executabili (fără recompense vagi)
• desfășurarea unor implementări masive paralele sandbox
• compară traiectoriile succesului versus eșecului
• să întărească ce funcționează, să rescrie ce se strică
Eșecurile nu sunt zgomot aici.
Sunt semnalul de cea mai mare valoare.
Modelul învață unde a greșit, de ce și cum să o repare, apoi internalizează acea corecție.
Acest lucru contează pentru că agenții GUI mor la granițe:
Stări UI neașteptate
Fluxuri de lucru pe termen lung
Erori de sincronizare, comandă și recuperare
EvoCUA se antrenează direct pe aceste cazuri limită.
Rezultatul:
• 56,7% succes pe OSWorld
• noul SOTA open-source
• modele mai mici care depășesc liniile de bază mai mari
• competitiv cu cele mai bune sisteme cu greutăți închise
Adevărata perspectivă nu este victoria de referință.
Este această schimbare:
Agenții nu devin mai buni văzând mai multe exemple.
Se îmbunătățesc trăind prin mai multă experiență.
Dacă ești serios în privința utilizării calculatoarelor autonome, această lucrare este o lectură obligatorie.
Articol: EvoCUA: Evoluția agenților de utilizare a calculatorului prin învățarea de la
Experiență sintetică scalabilă

1
Limită superioară
Clasament
Favorite
