Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 14
2022: ATARIN MASTEROINTI ERILLISTEN MAAILMANMALLIEN AVULLA
(DreamerV2)
DreamerV1 oli pääasiassa suunnattu jatkuviin ohjaustehtäviin, mutta se osoitti myös Atari-pelien ja DMLab-tehtävien peruspelaamista. DreamerV2 paransi mallia niin, että se saavutti huipputason suorituskyvyn 55 pelin Atari-sarjassa, ja ratkaisi myös vaikeamman humanoidikävelyn jatkuvan ohjauksen tehtävän.
Tämä on hyvin paljon insinöörityö, ja olen täällä sen kanssa! Liitteessä C tiivistetään muutokset, jotka johtivat suorituskyvyn parantamiseen, ja myös (hyvin harvinaista artikkeleissa!) listan asioista, joita he kokeilivat, mutta jotka eivät onnistuneet. Algoritmit esitetään oikealla koodilla nimillä kreikkalaisten kirjainten sijaan.
On huomionarvoista, että he käyttävät syötteenä vain 64x64 harmaasävyisiä kuvia, ja ne on skaalattu DQN:n yleisestä 84x84-resoluutiosta, joten se ei ole edes täydellinen 64x64 kuva lähteestä. Ne ovat hyvin sumeita syötteitä näin hyville pisteille. Olen utelias, parantaisiko 128x128xRGB-kuvien käyttö ylimääräisellä conv-kerroksella suorituskykyä, vai vaikeuttaisiko lisäyksityiskohdat maailmanmallin kouluttamista.
Suurin muutos oli korvata VAE-tyyliset gaussin latentit, jotka olivat vain 32 keskiarvo/var-paria, kategorisilla muuttujilla: 32 muuttujaa 32 kategoriasta. Heillä ei ole lopullista teoriaa siitä, miksi tämä olisi niin paljon parempi, mutta he tarjoavat useita teorioita. Olisi ollut mielenkiintoista verrata enemmän gaussialaisia suurempiin kategorisiin tuloksiin.
Toinen suuri algoritminen muutos oli "KL-tasapainotus", eli eri oppimisnopeuden käyttö etu- ja takapainoille, jolloin ennustaja harjoittelee nopeammin kuin esitys. Yhteisoptimointi oli ilmeisesti ongelmallinen V1:lle.
DreamerV1:llä oli vaikeuksia tutkimisessa, ja siinä oli silti epsilon-satunnainen toiminto stokastisen toimintapolitiikan lisäksi. V2:n parantunut säännöllistämis- ja dynamiikkamalli antaa heille mahdollisuuden luopua ylimääräisestä satunnaisuudesta ja luottaa pelkästään politiikkaan.
He tekevät merkittäviä muutoksia KL:n häviö- ja koulutusasetuksiin jatkuvan ohjauksen ja diskreetin Atari-ohjaustehtävien osalta.
He myös skaalasivat mallit suuremmiksi ja käyttivät ELU:n aktivointia kaikkialla.
Heidän Atari-arviointiprotokollansa on hyvä: täysi toimintatila ja kiinnitetyt toiminnot päällä. Pisteet ovat niin korkeita, että suositellaan uutta mittaria: "leikattujen ennätysten keskiarvo" – normalisoi ihmisen maailmanennätykseen, leikkaa jos se on sen yläpuolella, ja otetaan kaikkien pelien keskiarvo. Historialliset Atari RL -tulokset on verrattu "ihmisen" pisteisiin, jotka alun perin olivat satunnaisia ihmisiä, myöhemmin ammattilaispelaajia, mutta voimakkaille agenteille 200M frame-järjestelmässä tämä leikattu ennätysmittari on perusteltu.
Koulutuksen aikana kuviteltiin yli 200 miljoonaa oikean ympäristön kehystä eli 50 miljoonaa toimintavalintaa, joissa action_repeat 4 468 miljardia latenttia tilaa, lähes kymmenkertaisen kokemuksen verrattuna mallivapaaseen agenttiin.
Todellinen ympäristökokemus koulutetaan 50 jakson erissä, joissa kukin on 50 askelta. Jaksot ovat rajoitettuja, etteivät ne ylitä jaksojen rajoja.
Politiikka- ja arvofunktioita koulutettaessa kuvitteellisia jonoja otetaan käyttöön 15 askeleen ajan.
Arvot ovat MSE-koulutettuja, eivät kategorisia. Käytetään perinteistä arvokohdeverkkoa, joka päivittyy joka 100 gradienttivaiheen välein.
Johtavat
Rankkaus
Suosikit
