Bu makale, ajanları daha fazla demo ile ölçeklendirmenin neden çıkmaz sokak olduğunu gösteriyor. EvoCUA basit ama rahatsız edici bir iddiada bulunuyor: bilgisayar kullanan ajanlar "yeterince akıllı olmadıkları için başarısız olmazlar." Başarısız oluyorlar çünkü papağan gibi eğitilmişler, öğrenen değiller. Çoğu GUI ajanı statik izleri kopyalar. Bu kısa görevler için işe yarar. Planlama, iyileşme veya yargı gerektiğinde çöker. EvoCUA, veri ölçeklendirmeden deneyim ölçeklendirmeye geçiş yapar. Daha fazla ekran görüntüsü ve script toplamak yerine, kapalı bir döngü kurar: • görevleri otomatik olarak sentezle • çalıştırılabilir validatörleri ekleyin (belirsiz ödüller yok) • büyük paralel sandbox dağıtımları yürütmek • başarı ve başarısızlık yörüngelerini karşılaştırmak • işe yarayanları pekiştir, bozulanı yeniden yaz Başarısızlıklar burada gürültü değil. En değerli sinyal onlar. Model nerede hata yaptığını öğrenir, neden ve nasıl düzeltileceğini öğrenir, ardından bu düzeltmeyi içselleştirir. Bu önemli çünkü GUI ajanları sınırlarda ölür: beklenmedik kullanıcı arayüzü durumları Uzun ufuk iş akışları Zamanlama, sipariş ve kurtarma hataları ...