#PaperADay 12 2019: Învățarea dinamicii latente pentru planificare din pixeli (PlaNet) Acesta a fost precursorul seriei Dreamer 1/2/3/4 de agenți/lucrări RL, pe care le voi citi în succesiune. Planificarea este comună în sarcini cu dinamici de tranziție și recompensă complet specificate, cum ar fi jocurile de societate, dar este mult mai provocator când trebuie să înveți "regulile jocului" în același timp în care încerci să-ți îmbunătățești performanța, mai ales când încerci să faci asta din pixeli bruti în loc de stări perfect observate. Uneori apăr semi-în glumă poziția că "planificarea" s-ar putea să nu fie cu adevărat un lucru, cel puțin la niveluri joase ca acesta, și simt că planificarea când experiențele relevante sunt readuse din memorie și instruirea bootstrap pe ele, duce la schimbări ale deciziei actuale de politică. Există un articol clasic Atari care susține că bufferele de reluare *sunt* un fel de model de lume non-parametric. Această lucrare obține performanță maximă "aproape de" algoritmi puternici fără modele, dar cu mult mai puțină experiență în lumea reală necesară, deoarece cea mai mare parte a muncii se face în planificare. Adesea, metodele bazate pe modele trebuie să se chinuie să ajungă la paritate cu algoritmii mai simpli, fără modele, iar acest lucru se întâmplă și astăzi cu benchmark-ul Atari100k. Acesta este un sistem clasic bazat pe modele, cu un model de tranziție de stare și recompensă. Cea mai mare problemă a modelelor de tranziție este de obicei că erorile se acumulează rapid, așa că nu poți prezice mulți pași în viitor. Modelele de tranziție iau o stare plus o acțiune și prezic următoarea stare și recompensa care rezultă din efectuarea acțiunii. Una dintre descoperirile cheie ale articolului a fost că încercarea de a învăța un model de tranziție determinist a eșuat practic. Un model stocastic putea fi antrenat, dar performanța s-a îmbunătățit atunci când au combinat atât calculele deterministe, cât și cele stocastice în model. O privire atentă la cadrele de predicție video din anexa H este interesantă: odată ce modelul determinist de tranziție GRU pierdea graficul pe un cadru, tot ce urma rămânea stricat, în timp ce modelul stocastic putea trece la ceva lipsit de sens într-un cadru, dar apoi reveni la ceva rațional după aceea. Nu aș fi ghicit asta. Modelul lor complet combinat a oferit predicții arătătoare pe tot parcursul. Nu există o rețea de politici sau valori ca în RL-ul fără modele. Acțiunile sunt selectate prin încercarea unei secvențe folosind funcțiile de tranziție și recompensă modelate, iar acțiunea care a dus la cele mai bune rezultate este realizată. Mii de secvențe de acțiuni sunt evaluate pentru fiecare acțiune selectată, dar deoarece funcționează pe vectori latenti compacti, acest lucru este relativ eficient. Metoda Cross-Entropy (CEM) este folosită pentru planificarea mai multor pași înainte cu modelele de tranziție. Aceasta trebuie să fie euristică pentru spații de acțiuni continue sau pentru mai mult de câțiva pași modelați în viitor. Intrarea către rețeaua de stări este o observație RGB 64x64 (cuantificată la 5 biți ca GLOW; Nu înțeleg de ce este necesar acest lucru). În timpul antrenamentului, ei au un model de observație care încearcă să meargă înapoi de la o stare la o observație pixelată. Acest lucru este, în general, imposibil de realizat perfect când starea este mai mică decât imaginea, dar încercarea oferă un semnal de feedback bogat pentru ceea ce trebuie pus în starea. Aceasta nu este folosită pentru nicio parte a procesului decizional al acțiunii, este doar un instrument de antrenament. Acțiune-repetare de la 2 la 8, în funcție de sarcină. Depășirea latentă ca un regularizator în spațiul latent, care încurajează predicții iterate cu un și mai mulți pași să corespundă.