Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 14
2022: MASTERING AV ATARI MED DISKRETE VERDENSMODELLER
(DreamerV2)
DreamerV1 var hovedsakelig rettet mot kontinuerlige kontrolloppgaver, men demonstrerte også grunnleggende spilling av Atari-spill og DMLab-oppgaver. DreamerV2 forbedret modellen slik at den oppnådde topp moderne ytelse på Atari-pakken med 55 spill, og løste også den vanskeligere oppgaven med kontinuerlig kontroll av humanoid gang.
Dette er virkelig en ingeniøroppgave, og jeg er med på den! I vedlegg C oppsummerer de endringene som førte til bedre ytelse, og også (veldig sjeldent i artikler!) en liste over ting de prøvde som ikke fungerte. Algoritmer vises i faktisk kode med navn i stedet for greske bokstaver.
Det er bemerkelsesverdig at de kun bruker 64x64 gråtoner som input, og disse ble nedskalert fra den vanlige 84x84-oppløsningen brukt av DQN, så det er ikke engang et perfekt 64x64-bilde fra kilden. Det er veldig uklare input for så gode poengsummer. Jeg er nysgjerrig på om bruk av 128x128xRGB-bilder med et ekstra konv-lag vil forbedre ytelsen, eller om den ekstra detaljrikdommen vil gjøre det vanskeligere for verdensmodellen å tre.
Deres største endring var å erstatte VAE-stilens gaussiske latente, som bare var 32 gjennomsnitt/var-par, med kategoriske variabler: 32 variabler i 32 kategorier. De har ikke en endelig teori om hvorfor dette er så mye bedre, men tilbyr flere teorier. Det ville vært interessant å sammenligne flere gaussere med de større kategoriske utgangene.
Den andre store algoritmiske endringen var «KL-balansering», altså å bruke en annen læringsrate for prior- og posteriorvektene, slik at prediktoren trener raskere enn representasjonen. Leddoptimaliseringen var tilsynelatende problematisk for V1.
DreamerV1 slet med utforskning, og hadde fortsatt en epsilon-tilfeldig handling i tillegg til stokastisk handlingspolicy. V2s forbedrede regulariserings- og dynamikkmodell gjør at de kan droppe den ekstra tilfeldigheten og stole utelukkende på policyen.
De gjør noen betydelige endringer i KL-taps- og treningsoppsettet for kontinuerlig kontroll versus diskrete Atari-kontrolloppgaver.
De skalerte også modellene opp og brukte ELU-aktivering overalt.
Deres Atari-evalueringsprotokoll er god: full handlingsplass med faste handlinger aktivert. Poengsummene er høye nok til at de anbefaler en ny måleparameter: «klippet rekordgjennomsnitt» – normaliser til menneskets verdensrekord, klipper hvis den er over det, og tar deretter gjennomsnittet av alle kampene. De historiske Atari RL-resultatene har sammenlignet seg med «menneskelige» scorer, som opprinnelig var noen tilfeldige personer, deretter til slutt en profesjonell gamer, men for kraftige agenter i 200M-rammeregimet har denne korte rekordmålingen noe for seg.
Under trening ble over 200 millioner virkelige miljørammer, eller 50 millioner handlingsvalg med action_repeat 4 468 milliarder latente tilstander, forestilt for nesten 10 ganger så mye erfaring som en modellfri agent ville hatt.
Den virkelige miljøopplevelsen trenes i grupper på 50 sekvenser med 50 steg hver. Sekvensene er begrenset for å ikke krysse episodegrenser.
Når man trener policy- og verdifunksjonene, rulles imaginære sekvenser ut i 15 trinn.
Verdiene er MSE-trent, ikke kategoriske. Et tradisjonelt målnettverk med verdi brukes, som oppdateres hvert 100. gradientsteg.
Topp
Rangering
Favoritter
