Dit paper toont aan waarom het schalen van agenten met meer demo's een doodlopende weg is. EvoCUA doet een eenvoudige maar ongemakkelijke bewering: computergebruikagenten falen niet omdat ze "niet slim genoeg" zijn. Ze falen omdat ze getraind worden als papegaaien, niet als leerlingen. De meeste GUI-agenten kopiëren statische sporen. Dat werkt voor korte taken. Het stort in elkaar op het moment dat je planning, herstel of oordeel nodig hebt. EvoCUA draait het paradigma om van datascale naar ervaringsschaling. In plaats van meer screenshots en scripts te verzamelen, bouwt het een gesloten lus: • taken automatisch synthetiseren • uitvoerbare validators toevoegen (geen vage beloningen) • enorme parallelle sandbox-rollouts uitvoeren • succes- versus faaltrajecten vergelijken • versterken wat werkt, herschrijven wat breekt Fouten zijn hier geen ruis. Het zijn het hoogste waarde signaal. Het model leert waar het fout ging, waarom, en hoe het te verhelpen, en internaliseert die correctie. Dit is belangrijk omdat GUI-agenten sterven aan de grenzen: onverwachte UI-toestanden lange workflows timing-, volgorde- en herstelfouten ...