#PaperADay 12 2019: Att lära sig latent dynamik för planering från pixlar (PlaNet) Detta var föregångaren till Dreamer 1/2/3/4-serien av RL-agenter/artiklar, som jag kommer att läsa i ordning. Planering är vanligt i uppgifter med fullt specificerade övergångs- och belöningsdynamiker som brädspel, men det är mycket mer utmanande när du måste lära dig "spelets regler" samtidigt som du försöker förbättra din prestation, särskilt när du försöker göra det från råa pixlar istället för perfekt observerade tillståndsfunktioner. Jag försvarar ibland halvskämtsamt ståndpunkten att "planering" kanske egentligen inte existerar, åtminstone på låga nivåer som denna, och det känns som att planering när relevanta erfarenheter tas upp ur minnet och bootstrap-träning på dem leder till förändringar i det nuvarande policybeslutet. Det finns en klassisk Atari-artikel som hävdar att replay-buffertar *är* en slags icke-parametrisk världsmodell. Denna artikel får toppprestanda "nära" starka modellfria algoritmer, men med betydligt mindre verklig erfarenhet som krävs, eftersom det mesta av arbetet sker inom planering. Ofta måste modellbaserade metoder kämpa för att nå paritet med de enklare modellfria algoritmerna, och det pågår fortfarande med Atari100k-benchmarken idag. Detta är ett klassiskt modellbaserat system med en modell för tillståndsövergång och belöning. Det största problemet med övergångsmodeller är oftast att fel samlas snabbt, så man kan inte förutsäga många steg framåt. Övergångsmodellerna tar ett tillstånd plus en handling och förutspår nästa tillstånd och den belöning som uppstår av att utföra handlingen. En av de viktigaste fynden i artikeln var att försöken att lära sig en deterministisk övergångsmodell i princip misslyckades. En stokastisk modell kunde tränas, men prestandan förbättrades när de kombinerade både deterministiska och stokastiska beräkningar i modellen. Att titta noga på videoprediktionsramarna i bilaga H är intressant: när den deterministiska GRU-övergångsmodellen tappade greppet om en bildruta, förblev allt efter det trasigt, medan den stokastiska modellen kunde övergå till något nonsensartat på en bildruta, men sedan tillbaka till något vettigt efteråt. Det hade jag inte gissat. Deras fullständiga kombinerade modell gav bra prognoser genom hela filmen. Det finns inget policy- eller värdenätverk som i modellfritt RL. Handlingar väljs genom att testa en sekvens av dem med hjälp av de modellerade övergångs- och belöningsfunktionerna, och den handling som ledde till bäst resultat utförs. Tusentals handlingssekvenser utvärderas för varje vald handling, men eftersom de arbetar med kompakta latenta vektorer är detta relativt effektivt. Cross-Entropy Method (CEM) används för att planera flera steg framåt med övergångsmodellerna. Detta måste vara heuristiskt för kontinuerliga handlingsutrymmen eller mer än några få modellerade steg in i framtiden. Ingången till tillståndsnätverket är en 64x64 RGB-observation (kvantiserad till 5 bitar som GLOW; Jag förstår inte riktigt varför detta är nödvändigt). Under träningen har de en observationsmodell som försöker gå bakåt från ett tillstånd till en pixelobservation. Detta är generellt omöjligt att göra perfekt när tillståndet är mindre än bilden, men att försöka det ger en rik återkopplingssignal för vad som ska placeras i tillståndet. Detta används inte för någon del av beslutsprocessen, det är bara ett utbildningshjälpmedel. Handlingsupprepning på 2 till 8, beroende på uppgiften. Latent överskjutning som regularizer i latent rum som uppmuntrar itererade ettstegs- och flerstegsprognoser för att matcha.