Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 12
2019: Læring av latent dynamikk for planlegging fra piksler (PlaNet)
Dette var forløperen til Dreamer 1/2/3/4-serien av RL-agenter/artikler, som jeg skal lese i rekkefølge.
Planlegging er vanlig i oppgaver med fullt spesifiserte overgangs- og belønningsmekanismer som brettspill, men det er mye mer utfordrende når du må lære «spillets regler» samtidig som du prøver å forbedre ytelsen din, spesielt når du prøver å gjøre det fra rå piksler i stedet for perfekt observerte tilstandsfunksjoner.
Noen ganger forsvarer jeg halvveis på spøk at «planlegging» kanskje ikke egentlig er en ting, i hvert fall på lave nivåer som dette, og det føles bare som planlegging når relevante erfaringer hentes frem fra hukommelsen, og bootstrap-trening på dem fører til endringer i den nåværende politiske beslutningen. Det finnes en klassisk Atari-artikkel som argumenterer for at replay-buffere *er* en slags ikke-parametrisk verdensmodell.
Denne artikkelen får toppytelse «nær» sterke modellfrie algoritmer, men med langt mindre praktisk erfaring nødvendig, fordi mesteparten av arbeidet foregår i planlegging. Ofte må modellbaserte metoder slite med å oppnå paritet med de enklere modellfrie algoritmene, og det skjer fortsatt med Atari100k-benchmarken i dag.
Dette er et klassisk modellbasert system med en tilstandsovergangs- og belønningsmodell. Det største problemet med overgangsmodeller er vanligvis at feil hoper seg opp raskt, så du kan ikke forutsi mange steg inn i fremtiden.
Overgangsmodellene tar en tilstand pluss en handling, og forutsier neste tilstand og belønningen som følger av handlingen. En av hovedfunnene i artikkelen var at forsøket på å lære en deterministisk overgangsmodell i praksis mislyktes. En stokastisk modell kunne trenes, men ytelsen ble bedre når de kombinerte både deterministiske og stokastiske beregninger i modellen.
Å se nøye på videoprediksjonsrammene i vedlegg H er interessant: når den deterministiske GRU-overgangsmodellen mistet plottet på en ramme, forble alt etterpå ødelagt, mens den stokastiske modellen kunne gå over til noe meningsløst på ett bilde, men så tilbake til noe fornuftig etterpå. Det hadde jeg ikke gjettet. Deres fullstendige kombinerte modell ga pene spådommer gjennom hele spillet.
Det finnes ikke noe policy- eller verdinettverk som i modellfri RL. Handlinger velges ved å prøve ut en sekvens av dem ved hjelp av de modellerte overgangs- og belønningsfunksjonene, og handlingen som ga best resultat blir gjennomført. Tusenvis av handlingssekvenser evalueres for hver valgt handling, men fordi de opererer på kompakte latente vektorer, er dette relativt effektivt. Cross-Entropy-metoden (CEM) brukes til å planlegge flere steg fremover med overgangsmodellene. Dette må være heuristisk for kontinuerlige handlingsrom eller mer enn noen få modellerte steg inn i fremtiden.
Inngangen til tilstandsnettverket er en 64x64 RGB-observasjon (kvantisert til 5 biter som GLOW; Jeg forstår ikke helt hvorfor dette er nødvendig). Under treningen har de en observasjonsmodell som prøver å gå bakover fra en tilstand til en pikselobservasjon. Dette er vanligvis umulig å gjøre perfekt når tilstanden er mindre enn bildet, men å forsøke det gir et rikt tilbakemeldingssignal for hva som skal plasseres i tilstanden. Dette brukes ikke i noen del av beslutningsprosessen for handling, det er bare et opplæringshjelpemiddel.
Handling-gjentakelse av 2 til 8, avhengig av oppgaven.
Latent overskyting som en regularizer i latent rom som oppmuntrer til itererte ett- og flertrinnsprediksjoner for å matche.
Topp
Rangering
Favoritter
