Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Niniejszy dokument pokazuje, dlaczego skalowanie agentów z większą liczbą demonstracji to ślepy zaułek.
EvoCUA stawia prostą, ale niewygodną tezę: agenci używający komputerów nie zawodzą, ponieważ są "niewystarczająco inteligentni".
Zawodzą, ponieważ są szkoleni jak papugi, a nie jak uczniowie.
Większość agentów GUI kopiuje statyczne ślady. Działa to w przypadku krótkich zadań. Zawodzi w momencie, gdy potrzebne jest planowanie, odzyskiwanie lub osąd.
EvoCUA zmienia paradygmat z skalowania danych na skalowanie doświadczeń.
Zamiast zbierać więcej zrzutów ekranu i skryptów, buduje zamkniętą pętlę:
• automatyczne syntezowanie zadań
• dołączanie wykonawczych walidatorów (bez niejasnych nagród)
• uruchamianie masowych równoległych symulacji w piaskownicy
• porównywanie trajektorii sukcesu i porażki
• wzmacnianie tego, co działa, przepisywanie tego, co się psuje
Porażki nie są tutaj szumem.
Są najwyżej wartościowym sygnałem.
Model uczy się, gdzie popełnił błąd, dlaczego i jak to naprawić, a następnie internalizuje tę korektę.
To ma znaczenie, ponieważ agenci GUI umierają na granicach:
nieoczekiwane stany UI
workflow o długim horyzoncie
błędy czasowe, porządkowe i odzyskiwania
...

Najlepsze
Ranking
Ulubione
