#PaperADay 12 2019: Uczenie się ukrytej dynamiki do planowania z pikseli (PlaNet) To był prekursor serii agentów RL / prac Dreamer 1/2/3/4, które zamierzam czytać w kolejności. Planowanie jest powszechne w zadaniach z całkowicie określonymi dynamikami przejścia i nagrody, jak w grach planszowych, ale jest znacznie bardziej wymagające, gdy musisz jednocześnie nauczyć się „reguł gry”, starając się poprawić swoje wyniki, zwłaszcza gdy próbujesz to zrobić z surowych pikseli zamiast idealnie obserwowanych cech stanu. Czasami pół-żartem bronię stanowiska, że „planowanie” może w rzeczywistości nie być czymś, przynajmniej na niskich poziomach jak ten, i po prostu wydaje się, że to planowanie, gdy odpowiednie doświadczenia są przywoływane z pamięci, a bootstrapowe szkolenie na nich prowadzi do zmian w bieżącej decyzji politycznej. Istnieje klasyczny artykuł Atari, który argumentuje, że bufor odtwarzania *jest* rodzajem nieparametrycznego modelu świata. Ten artykuł osiąga szczytową wydajność „blisko” silnych algorytmów bez modelu, ale z znacznie mniejszym doświadczeniem w rzeczywistym świecie, ponieważ większość pracy odbywa się w planowaniu. Często metody oparte na modelach muszą zmagać się, aby osiągnąć parytet z prostszymi algorytmami bez modelu, a to wciąż trwa w benchmarku Atari100k dzisiaj. To klasyczny system oparty na modelu z modelem przejścia stanu i nagrody. Największym problemem z modelami przejścia jest zazwyczaj to, że błędy szybko się kumulują, więc nie możesz przewidzieć wielu kroków w przyszłość. Modele przejścia biorą stan plus akcję i przewidują następny stan oraz nagrodę, która wynika z podjęcia akcji. Jednym z kluczowych ustaleń artykułu było to, że próba nauczenia się deterministycznego modelu przejścia zasadniczo nie powiodła się. Model stochastyczny mógł być trenowany, ale wydajność poprawiła się, gdy połączyli obliczenia deterministyczne i stochastyczne w modelu. Dokładne przyjrzenie się klatkom przewidywania wideo w załączniku H jest interesujące: gdy deterministyczny model przejścia GRU stracił wątek na klatce, wszystko po tym pozostało zepsute, podczas gdy model stochastyczny mógł przejść do czegoś nonsensownego na jednej klatce, ale potem wrócić do czegoś sensownego później. Nie zgadłbym tego. Ich pełny model połączony dawał dobre prognozy przez cały czas. Nie ma sieci polityki ani wartości jak w RL bez modelu. Akcje są wybierane poprzez wypróbowanie sekwencji, używając modelowanych funkcji przejścia i nagrody, a akcja, która doprowadziła do najlepszych wyników, jest podejmowana. Tysiące sekwencji akcji są oceniane dla każdej wybranej akcji, ale ponieważ działają na kompaktowych wektorach ukrytych, jest to stosunkowo wydajne. Metoda Cross-Entropy (CEM) jest używana do planowania wielu kroków naprzód z modelami przejścia. Musi to być heurystyczne dla ciągłych przestrzeni akcji lub dla jakiejkolwiek większej liczby modelowanych kroków w przyszłość. Wejściem do sieci stanu jest obserwacja RGB 64x64 (kwantyzowana do 5 bitów jak GLOW; nie jestem pewien, dlaczego to jest konieczne). Podczas szkolenia mają model obserwacji, który próbuje cofnąć się z stanu do obserwacji pikseli. Generalnie jest to niemożliwe do zrobienia idealnie, gdy stan jest mniejszy niż obraz, ale próba tego dostarcza bogatego sygnału zwrotnego, co umieścić w stanie. To nie jest używane w żadnej części procesu podejmowania decyzji o akcji, to tylko pomoc w szkoleniu. Powtarzanie akcji od 2 do 8, w zależności od zadania. Latent overshooting jako regularizator w przestrzeni latentnej, który zachęca do iteracyjnych prognoz jednoczesnych i wielokrokowych.