DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

#PaperADay 14 2022: MASTERING AV ATARI MED DISKRETA VÄRLDSMODELLER (DreamerV2) DreamerV1 var mest inriktat på kontinuerliga kontrolluppgifter, men visade också grundläggande spel i Atari-spel och DMLab-uppgifter. DreamerV2 förbättrade modellen så att den uppnådde toppmodern prestanda på Atari-paketet med 55 spel, och löste även den svårare humanoida gångens kontinuerliga kontrolluppgift. Det här är verkligen en ingenjörsuppsats, och jag är här för den! I bilaga C sammanfattar de de förändringar som ledde till förbättrad prestanda, och även (mycket ovanligt i artiklar!) en lista över saker de försökte som inte fungerade. Algoritmer visas i faktisk kod med namn istället för grekiska bokstäver. Det är anmärkningsvärt att de bara använder 64x64 gråskalabilder som inmatning, och dessa nedskalades från den vanliga 84x84-upplösningen som DQN använder, så det är inte ens en perfekt 64x64-bild från källan. Det är väldigt suddiga inmatningar för så bra poäng. Jag undrar om användning av 128x128xRGB-bilder med ett extra konv-lager skulle förbättra prestandan, eller om den extra detaljnivån skulle göra det svårare för världsmodellen att träna. Deras största förändring var att ersätta VAE-stilens gaussiska latent, som bara var 32 medel/var-par, med kategoriska variabler: 32 variabler i 32 kategorier. De har ingen avgörande teori om varför detta är så mycket bättre, men erbjuder flera teorier. Det hade varit intressant att jämföra fler gausser med de större kategoriska utgångarna. Den andra stora algoritmiska förändringen var "KL-balansering", alltså att använda en annan inlärningshastighet för prior- och posteriorvikterna, så prediktorn tränar snabbare än representationen. Ledoptimeringen var tydligen problematisk för V1. DreamerV1 hade svårt med utforskning och hade ändå en epsilon-slumpmässig handling ovanpå den stokastiska åtgärdspolicyn. V2:s förbättrade regulariserings- och dynamikmodell gör att de kan släppa den extra slumpmässigheten och förlita sig enbart på policyn. De gör dock betydande förändringar i KL-förlust- och träningssystemet för kontinuerlig kontroll kontra diskret Atari-kontroll. De skalade också upp modellerna och använde ELU-aktivering överallt. Deras Atari-utvärderingsprotokoll är bra: full action space med sticky actions aktiverade. Poängen är tillräckligt höga för att de rekommenderar ett nytt mått: "klippt rekordmedelvärde" – normalisera till människans världsrekord, klippa om det är över det, och ta sedan medelvärdet av alla matcher. De historiska resultaten från Atari RL har jämförts med "mänskliga" poäng, som ursprungligen var några slumpmässiga personer, sedan så småningom en professionell spelare, men för kraftfulla agenter inom 200M-ramsystemet har denna korta rekordstatistik värde. Under träningen föreställdes över 200 miljoner verkliga miljöramar, eller 50 miljoner handlingsval med action_repeat 4 468 miljarder latenta tillstånd, för nästan 10 gånger den upplevelse som en modellfri agent skulle ha sett. Den verkliga miljöupplevelsen tränas i batcher om 50 sekvenser med 50 steg vardera. Sekvenserna är begränsade för att inte överskrida avsnittsgränser. När policy- och värdefunktionerna tränar rullas imaginära sekvenser ut i 15 steg. Värdena är MSE-tränade, inte kategoriska. Ett traditionellt värdemålnätverk används, som uppdateras var 100:e gradientsteg.

Topp

Rankning

Favoriter