DApp Store | Web3 Hub for hendelser og spill

Populære emner

#PaperADay 14 2022: MASTERING AV ATARI MED DISKRETE VERDENSMODELLER (DreamerV2) DreamerV1 var hovedsakelig rettet mot kontinuerlige kontrolloppgaver, men demonstrerte også grunnleggende spilling av Atari-spill og DMLab-oppgaver. DreamerV2 forbedret modellen slik at den oppnådde topp moderne ytelse på Atari-pakken med 55 spill, og løste også den vanskeligere oppgaven med kontinuerlig kontroll av humanoid gang. Dette er virkelig en ingeniøroppgave, og jeg er med på den! I vedlegg C oppsummerer de endringene som førte til bedre ytelse, og også (veldig sjeldent i artikler!) en liste over ting de prøvde som ikke fungerte. Algoritmer vises i faktisk kode med navn i stedet for greske bokstaver. Det er bemerkelsesverdig at de kun bruker 64x64 gråtoner som input, og disse ble nedskalert fra den vanlige 84x84-oppløsningen brukt av DQN, så det er ikke engang et perfekt 64x64-bilde fra kilden. Det er veldig uklare input for så gode poengsummer. Jeg er nysgjerrig på om bruk av 128x128xRGB-bilder med et ekstra konv-lag vil forbedre ytelsen, eller om den ekstra detaljrikdommen vil gjøre det vanskeligere for verdensmodellen å tre. Deres største endring var å erstatte VAE-stilens gaussiske latente, som bare var 32 gjennomsnitt/var-par, med kategoriske variabler: 32 variabler i 32 kategorier. De har ikke en endelig teori om hvorfor dette er så mye bedre, men tilbyr flere teorier. Det ville vært interessant å sammenligne flere gaussere med de større kategoriske utgangene. Den andre store algoritmiske endringen var «KL-balansering», altså å bruke en annen læringsrate for prior- og posteriorvektene, slik at prediktoren trener raskere enn representasjonen. Leddoptimaliseringen var tilsynelatende problematisk for V1. DreamerV1 slet med utforskning, og hadde fortsatt en epsilon-tilfeldig handling i tillegg til stokastisk handlingspolicy. V2s forbedrede regulariserings- og dynamikkmodell gjør at de kan droppe den ekstra tilfeldigheten og stole utelukkende på policyen. De gjør noen betydelige endringer i KL-taps- og treningsoppsettet for kontinuerlig kontroll versus diskrete Atari-kontrolloppgaver. De skalerte også modellene opp og brukte ELU-aktivering overalt. Deres Atari-evalueringsprotokoll er god: full handlingsplass med faste handlinger aktivert. Poengsummene er høye nok til at de anbefaler en ny måleparameter: «klippet rekordgjennomsnitt» – normaliser til menneskets verdensrekord, klipper hvis den er over det, og tar deretter gjennomsnittet av alle kampene. De historiske Atari RL-resultatene har sammenlignet seg med «menneskelige» scorer, som opprinnelig var noen tilfeldige personer, deretter til slutt en profesjonell gamer, men for kraftige agenter i 200M-rammeregimet har denne korte rekordmålingen noe for seg. Under trening ble over 200 millioner virkelige miljørammer, eller 50 millioner handlingsvalg med action_repeat 4 468 milliarder latente tilstander, forestilt for nesten 10 ganger så mye erfaring som en modellfri agent ville hatt. Den virkelige miljøopplevelsen trenes i grupper på 50 sekvenser med 50 steg hver. Sekvensene er begrenset for å ikke krysse episodegrenser. Når man trener policy- og verdifunksjonene, rulles imaginære sekvenser ut i 15 trinn. Verdiene er MSE-trent, ikke kategoriske. Et tradisjonelt målnettverk med verdi brukes, som oppdateres hvert 100. gradientsteg.

Topp

Rangering

Favoritter