Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 14
2022: MISTRZOSTWO ATARI Z DYSKRETNYMI MODELAMI ŚWIATA
(DreamerV2)
DreamerV1 był głównie skierowany na zadania związane z ciągłą kontrolą, ale również wykazał podstawowe umiejętności w grze w gry Atari i zadania DMLab. DreamerV2 poprawił model, osiągając najlepsze wyniki w 55 grach z zestawu Atari, a także rozwiązał trudniejsze zadanie ciągłej kontroli humanoidalnego chodzenia.
To zdecydowanie praca inżynieryjna, i jestem za tym! W załączniku C podsumowują zmiany, które doprowadziły do poprawy wydajności, a także (bardzo rzadkie w pracach naukowych!) listę rzeczy, które próbowali, a które nie zadziałały. Algorytmy są pokazane w rzeczywistym kodzie z nazwami zamiast greckich liter.
Warto zauważyć, że używają tylko obrazów w skali szarości 64x64 jako wejścia, które zostały zmniejszone z powszechnej rozdzielczości 84x84 używanej przez DQN, więc to nie jest nawet idealny obraz 64x64 z źródła. To bardzo rozmyte wejścia przy tak dobrych wynikach. Ciekawi mnie, czy użycie obrazów 128x128xRGB z dodatkową warstwą konwolucyjną poprawiłoby wydajność, czy dodatkowe szczegóły utrudniłyby modelowi świata trening.
Ich największą zmianą było zastąpienie latencji w stylu VAE, które były tylko 32 parami średniej/wariancji, zmiennymi kategorycznymi: 32 zmiennymi z 32 kategoriami. Nie mają jednoznacznej teorii, dlaczego to jest znacznie lepsze, ale oferują kilka teorii. Byłoby interesujące porównać więcej gaussów z większymi wyjściami kategorycznymi.
Inną dużą zmianą algorytmiczną było „równoważenie KL”, czyli użycie innej szybkości uczenia dla wag priorytetowych i posteriorowych, dzięki czemu predyktor uczy się szybciej niż reprezentacja. Wspólna optymalizacja była podobno problematyczna dla V1.
DreamerV1 miał problemy z eksploracją i nadal miał epsilon-losową akcję na szczycie stochastycznej polityki akcji. Ulepszona regularyzacja i model dynamiki V2 pozwalają im zrezygnować z dodatkowej losowości i polegać wyłącznie na polityce.
Wprowadzają również znaczne zmiany w stracie KL i ustawieniach treningowych dla ciągłej kontroli w porównaniu do dyskretnej kontroli Atari.
Zwiększyli również modele i użyli aktywacji ELU wszędzie.
Ich protokół oceny Atari jest dobry: pełna przestrzeń akcji z włączonymi przyklejonymi akcjami. Wyniki są na tyle wysokie, że zalecają nową miarę: „skorygowane średnie rekordy” – normalizują do ludzkiego rekordu świata, przycinając, jeśli jest powyżej tego, a następnie biorąc średnią ze wszystkich gier. Historyczne wyniki Atari RL porównywały się z „ludzkimi” wynikami, które początkowo były wynikiem przypadkowych ludzi, a potem ostatecznie profesjonalnego gracza, ale dla potężnych agentów w reżimie 200M klatek, ta skorygowana miara rekordów ma sens.
Podczas treningu przez 200 milionów rzeczywistych klatek środowiska, lub 50 milionów wyborów akcji z action_repeat 4, wyobrażono 468 miliardów stanów latentnych, co daje prawie 10 razy więcej doświadczenia, niż modelowy agent bez uczenia by widział.
Doświadczenie z rzeczywistego środowiska jest trenowane w partiach 50 sekwencji po 50 kroków każda. Sekwencje są ograniczone, aby nie przekraczać granic odcinków.
Podczas trenowania polityki i funkcji wartości, wyimaginowane sekwencje są rozwijane przez 15 kroków.
...
Najlepsze
Ranking
Ulubione
