Makalah ini menunjukkan mengapa agen penskalaan dengan lebih banyak demo adalah jalan buntu. EvoCUA membuat klaim sederhana namun tidak nyaman: agen penggunaan komputer tidak gagal karena mereka "tidak cukup pintar." Mereka gagal karena mereka dilatih seperti burung beo, bukan pembelajar. Sebagian besar agen GUI menyalin jejak statis. Itu berfungsi untuk tugas singkat. Itu runtuh saat Anda membutuhkan perencanaan, pemulihan, atau penilaian. EvoCUA membalik paradigma dari penskalaan data ke penskalaan pengalaman. Alih-alih mengumpulkan lebih banyak tangkapan layar dan skrip, ia membangun loop tertutup: • mensintesis tugas secara otomatis • Lampirkan validator yang dapat dieksekusi (tidak ada hadiah yang tidak jelas) • Jalankan peluncuran kotak pasir paralel besar-besaran • Membandingkan lintasan keberhasilan vs kegagalan • memperkuat apa yang berhasil, menulis ulang apa yang rusak Kegagalan bukanlah kebisingan di sini. Mereka adalah sinyal bernilai tertinggi. Model mempelajari di mana kesalahannya, mengapa, dan bagaimana memperbaikinya, kemudian menginternalisasi koreksi itu. Ini penting karena agen GUI mati di batas: status UI yang tidak terduga Alur kerja jangka panjang Kesalahan waktu, pemesanan, dan pemulihan ...