Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 12
2019: Leren van Latente Dynamiek voor Planning vanuit Pixels (PlaNet)
Dit was de voorloper van de Dreamer 1/2/3/4 serie van RL-agenten / papers, die ik in volgorde ga lezen.
Planning is gebruikelijk in taken met volledig gespecificeerde overgangs- en beloningsdynamiek zoals bordspellen, maar het is veel uitdagender wanneer je tegelijkertijd de "regels van het spel" moet leren terwijl je probeert je prestaties te verbeteren, vooral wanneer je dit vanuit ruwe pixels probeert in plaats van perfect waargenomen staatseigenschappen.
Ik verdedig soms semi-grappend de positie dat "planning" misschien eigenlijk geen ding is, althans op lage niveaus zoals dit, en het voelt gewoon als plannen wanneer relevante ervaringen uit het geheugen worden opgeroepen en bootstrap-training daarop resulteert in veranderingen in de huidige beleidsbeslissing. Er is een klassieke Atari-paper die de stelling maakt dat replay-buffers *een* soort niet-parametrisch wereldmodel zijn.
Dit paper bereikt piekprestaties "dichtbij" sterke modelvrije algoritmen, maar met veel minder ervaring in de echte wereld, omdat het meeste werk in planning plaatsvindt. Vaak moeten modelgebaseerde methoden worstelen om gelijk te komen met de eenvoudigere modelvrije algoritmen, en dat gebeurt nog steeds met de Atari100k benchmark vandaag.
Dit is een klassiek modelgebaseerd systeem met een staatsovergangs- en beloningsmodel. Het grootste probleem met overgangsmodellen is meestal dat fouten snel accumuleren, zodat je niet veel stappen in de toekomst kunt voorspellen.
De overgangsmodellen nemen een staat plus een actie en voorspellen de volgende staat en de beloning die voortkomt uit het nemen van de actie. Een van de belangrijkste bevindingen van het paper was dat het proberen te leren van een deterministisch overgangsmodel in wezen faalde. Een stochastisch model kon worden getraind, maar de prestaties verbeterden toen ze zowel deterministische als stochastische berekeningen in het model combineerden.
Nauwkeurig kijken naar de videovoorspellingsframes in bijlage H is interessant: zodra het deterministische GRU-overgangsmodel de draad kwijt raakte op een frame, bleef alles daarna kapot, terwijl het stochastische model op één frame in iets onzinnigs kon overgaan, maar daarna weer terug naar iets zinnigs. Dat had ik niet verwacht. Hun volledige gecombineerde model gaf gedurende de hele tijd goede voorspellingen.
Er is geen beleid of waardenetwerk zoals in modelvrije RL. Acties worden geselecteerd door een reeks van hen uit te proberen met behulp van de gemodelleerde overgangs- en beloningsfuncties, en de actie die tot de beste resultaten leidde, wordt genomen. Duizenden actiesequenties worden geëvalueerd voor elke geselecteerde actie, maar omdat ze werken op compacte latente vectoren, is dit relatief efficiënt. De Cross-Entropy Methode (CEM) wordt gebruikt voor planning meerdere stappen vooruit met de overgangsmodellen. Dit moet heuristisch zijn voor continue actieruimten of meer dan een paar gemodelleerde stappen in de toekomst.
De invoer voor het staatnetwerk is een 64x64 RGB-observatie (gequantiseerd tot 5 bits zoals GLOW; ik ben niet duidelijk waarom dit nodig is). Tijdens de training hebben ze een observatiemodel dat probeert terug te gaan van een staat naar een pixelobservatie. Dit is over het algemeen onmogelijk perfect te doen wanneer de staat kleiner is dan de afbeelding, maar het proberen biedt een rijke feedbacksignaal voor wat in de staat moet worden geplaatst. Dit wordt niet gebruikt voor enig deel van het actiebesluitvormingsproces, het is gewoon een trainingshulpmiddel.
Actie-herhaling van 2 tot 8, afhankelijk van de taak.
Latente overshooting als een regularizer in latente ruimte die iteratieve één-stap en multi-stap voorspellingen aanmoedigt om overeen te komen.
Boven
Positie
Favorieten
