#PaperADay 12 2019: Latenttien dynamiikan oppiminen suunnittelussa pikseleistä (PlaNet) Tämä oli edeltäjä Dreamer 1/2/3/4 -sarjalle RL-agentteja / artikkeleita, jotka aion lukea peräkkäin. Suunnittelu on yleistä tehtävissä, joissa on täysin määritelty siirtymä- ja palkitsemisdynamiikka, kuten lautapeleissä, mutta se on paljon haastavampaa, kun sinun täytyy oppia "pelin säännöt" samalla kun yrität parantaa suoritustasi, erityisesti kun yrität tehdä sen raakapikseleistä täydellisesti havaittujen tilaominaisuuksien sijaan. Joskus puolustan puoliksi vitsillä sitä kantaa, että "suunnittelu" ei ehkä oikeasti ole olemassa, ainakaan näin matalilla tasoilla, ja tuntuu siltä, että suunnittelu, kun asiaankuuluvat kokemukset herätetään muistista ja niihin perustuva oma-aloitteinen koulutus johtaa nykyiseen politiikkapäätökseen muutoksiin. On klassinen Atari-artikkeli, joka esittää väitteen, että toistopuskurit *ovat* eräänlaisia ei-parametrisia maailmanmalleja. Tämä artikkeli saa huippusuorituskyvyn "lähelle" vahvoja mallivapaita algoritmeja, mutta käytännön kokemusta on paljon vähemmän, koska suurin osa työstä tapahtuu suunnittelussa. Usein mallipohjaiset menetelmät joutuvat kamppailemaan saavuttaakseen tasavertaisuuden yksinkertaisempien mallivapaiden algoritmien kanssa, ja sama jatkuu edelleen Atari100k-vertailun kanssa. Tämä on klassinen mallipohjainen järjestelmä, jossa on tilasiirtymä ja palkitsemismalli. Suurin ongelma siirtymämalleissa on yleensä se, että virheet kertyvät nopeasti, joten et voi ennustaa monia vaiheita tulevaisuuteen. Siirtymämallit ottavat tilan plus toiminnon ja ennustavat seuraavan tilan sekä siitä aiheutuvan palkinnon. Yksi tutkimuksen keskeisistä havainnoista oli, että deterministisen siirtymämallin oppiminen epäonnistui käytännössä. Stokastinen malli voitiin kouluttaa, mutta suorituskyky parani, kun mallissa yhdistettiin sekä deterministiset että stokastiset laskelmat. On mielenkiintoista tarkastella tarkemmin liitteen H videon ennustuskehyksiä: kun deterministinen GRU-siirtymämalli menetti kuvan, kaikki sen jälkeen pysyi rikkinäisenä, kun taas stokastinen malli saattoi siirtyä johonkin järjettömään yhdellä ruudulla, mutta sitten takaisin järkeväksi. En olisi arvannut sitä. Heidän täydellinen yhdistetty mallinsa antoi hyvännäköisiä ennusteita läpi pelin. Ei ole olemassa politiikkaa tai arvoverkostoa kuten mallivapaassa RL:ssä. Toiminnot valitaan kokeilemalla niiden sarjaa mallinnettujen siirtymä- ja palkitsemisfunktioiden avulla, ja suoritetaan toiminto, joka johti parhaisiin tuloksiin. Jokaista valittua toimintoa kohden arvioidaan tuhansia toimintasarjoja, mutta koska ne toimivat kompakteilla latentivektoreilla, tämä on suhteellisen tehokasta. Cross-Entropy Method (CEM) -menetelmää käytetään suunnittelemaan useita vaiheita eteenpäin siirtymämallien kanssa. Tämän täytyy olla heuristinen jatkuville toimintatiloille tai muutamalle mallinnetulle askeleelle tulevaisuuteen. Tilaverkon syöte on 64x64 RGB-havainto (kvantisoitu 5 bittiin kuten GLOW; En ole varma, miksi tämä on tarpeen). Koulutuksen aikana heillä on havaintomalli, joka yrittää mennä taaksepäin tilasta pikselihavaintoon. Tämä on yleensä mahdotonta tehdä täydellisesti, kun tila on pienempi kuin kuva, mutta yrittäminen antaa rikkaan palautesignaalin siitä, mitä tilaan laitetaan. Tätä ei käytetä mihinkään osaan toimintapäätösprosessia, se on vain koulutusapuväline. Toiminto-toisto 2–8 tehtävästä riippuen. Piilevä ylilyönti säännöllisinä latenttitilassa, joka kannustaa toistettuihin yhden askeleen ja monivaiheisten ennusteiden tekemiseen vastaavaksi.