Dieses Papier zeigt, warum das Skalieren von Agenten mit mehr Demos eine Sackgasse ist. EvoCUA macht eine einfache, aber unangenehme Behauptung: Computer-Nutzungsagenten scheitern nicht, weil sie "nicht schlau genug" sind. Sie scheitern, weil sie wie Papageien und nicht wie Lernende trainiert werden. Die meisten GUI-Agenten kopieren statische Spuren. Das funktioniert bei kurzen Aufgaben. Es bricht zusammen, sobald Planung, Wiederherstellung oder Urteil erforderlich sind. EvoCUA kehrt das Paradigma von Datenskalierung zu Erfahrungsskalierung um. Anstatt mehr Screenshots und Skripte zu sammeln, baut es eine geschlossene Schleife: • Aufgaben automatisch synthetisieren • ausführbare Validatoren anhängen (keine vagen Belohnungen) • massive parallele Sandbox-Rollouts durchführen • Erfolg vs. Misserfolg vergleichen • verstärken, was funktioniert, umschreiben, was nicht funktioniert Misserfolge sind hier kein Rauschen. Sie sind das wertvollste Signal. Das Modell lernt, wo es falsch lag, warum und wie es das beheben kann, und internalisiert dann diese Korrektur. Das ist wichtig, weil GUI-Agenten an den Grenzen sterben: unerwartete UI-Zustände langfristige Workflows Timing-, Reihenfolge- und Wiederherstellungsfehler ...