Denna artikel visar varför det är en återvändsgränd att skala agenter med fler demos. EvoCUA gör ett enkelt men obekvämt påstående: datoranvändare misslyckas inte för att de "inte är tillräckligt smarta." De misslyckas eftersom de tränas som papegojor, inte som elever. De flesta GUI-agenter kopierar statiska spår. Det fungerar för korta uppgifter. Den kollapsar i samma ögonblick som du behöver planering, återhämtning eller omdöme. EvoCUA vänder paradigmet från dataskalning till upplevelseskalning. Istället för att samla fler skärmdumpar och skript bygger det en sluten loop: • syntetisera uppgifter automatiskt • bifoga exekverbara validatorer (inga vaga belöningar) • köra massiva parallella sandbox-utrullningar • jämför framgångs- och misslyckandenbanor • förstärka det som fungerar, skriva om det som går sönder Misslyckanden är inte brus här. De är den högst värdefulla signalen. Modellen lär sig var det gick fel, varför och hur man åtgärdar det, och internaliserar sedan den korrigeringen. Detta är viktigt eftersom GUI-agenter dör vid gränserna: oväntade UI-tillstånd Långsiktiga arbetsflöden Tids-, beställnings- och återställningsfel ...