#PaperADay 14 2022: MEESTERSCHAP IN ATARI MET DISCRETE WERELDMODELLEN (DreamerV2) DreamerV1 was voornamelijk gericht op continue controle taken, maar toonde ook basis spelvaardigheden in Atari-spellen en DMLab-taken. DreamerV2 verbeterde het model zodat het state-of-the-art prestaties behaalde op de 55 spel Atari suite, en ook de moeilijkere humanoïde loop continue controle taak oploste. Dit is echt een ingenieursartikel, en ik ben hier voor! In bijlage C vatten ze de veranderingen samen die leidden tot verbeterde prestaties, en ook (heel zeldzaam in artikelen!) een lijst van dingen die ze hebben geprobeerd die niet werkten. Algoritmen worden getoond in daadwerkelijke code met namen in plaats van Griekse letters. Het is opmerkelijk dat ze alleen 64x64 grijswaardenafbeeldingen als invoer gebruiken, en die zijn verkleind van de gebruikelijke 84x84 resolutie die door DQN wordt gebruikt, dus het is zelfs geen perfecte 64x64 afbeelding van de bron. Dat zijn zeer vage invoer voor zulke goede scores. Ik ben benieuwd of het gebruik van 128x128xRGB-afbeeldingen met een extra conv-laag de prestaties zou verbeteren, of dat de extra details het moeilijker zouden maken voor het wereldmodel om te trainen. Hun grootste verandering was het vervangen van de VAE-stijl gaussian latents, die slechts 32 gemiddelde/variantie paren waren, door categorische variabelen: 32 variabelen van 32 categorieën. Ze hebben geen sluitende theorie waarom dit zoveel beter is, maar bieden verschillende theorieën aan. Het zou interessant zijn geweest om meer gaussische waarden te vergelijken met de grotere categorische uitgangen. De andere grote algoritmische verandering was “KL-balancering”, of het gebruik van een andere leersnelheid voor de prior en posterior gewichten, zodat de voorspeller sneller traint dan de representatie. De gezamenlijke optimalisatie was blijkbaar problematisch voor V1. DreamerV1 had moeite met exploratie, en had nog steeds een epsilon-willekeurige actie bovenop het stochastische actiebeleid. V2’s verbeterde regularisatie en dynamische model stellen hen in staat om de extra willekeurigheid te laten vallen en uitsluitend op het beleid te vertrouwen. Ze maken ook substantiële veranderingen in de KL-verlies en trainingsopzet voor de continue controle versus discrete Atari controle taken. Ze hebben ook de modellen opgeschaald en overal ELU-activering gebruikt. Hun Atari-evaluatieprotocol is goed: volledige actieruimte met plakkerige acties ingeschakeld. De scores zijn hoog genoeg dat ze een nieuwe maatstaf aanbevelen: “geknipte recordgemiddelde” scores – normaliseren naar het wereldrecord van de mens, knippen als het daarboven is, en dan het gemiddelde van alle spellen nemen. De historische Atari RL-resultaten zijn vergeleken met “menselijke” scores, die oorspronkelijk enkele willekeurige mensen waren, en uiteindelijk een professionele gamer, maar voor krachtige agenten in het 200M frame-regime heeft deze geknipte recordmaatstaf waarde. Tijdens de training over 200 miljoen echte omgevingsframes, of 50 miljoen actie-selecties met action_repeat 4, werden 468 miljard latente toestanden voorgesteld, voor bijna 10x de ervaring die een modelvrije agent zou hebben gezien. De echte omgevingservaring wordt getraind in batches van 50 sequenties van elk 50 stappen. Sequenties zijn beperkt om niet over episodegrenzen heen te gaan. Bij het trainen van de beleids- en waarde-functies worden imaginaire sequenties voor 15 stappen uitgerold. ...