#PaperADay 12 2019: Učení se latentní dynamice plánování z pixelů (PlaNet) To byl předchůdce série Dreamer 1/2/3/4 RL agentů / článků, které budu číst postupně. Plánování je běžné u úkolů s plně definovanou dynamikou přechodů a odměn, jako jsou deskové hry, ale je mnohem náročnější, když se musíte učit "pravidla hry" současně se snažíte zlepšit svůj výkon, zvlášť když se snažíte dělat to z čistých pixelů místo dokonale pozorovaných stavových prvků. Někdy položertem obhajuji postoj, že "plánování" možná vlastně neexistuje, alespoň na tak nízkých úrovních, a mám pocit, že plánování, když si z paměti vyvoláme relevantní zkušenosti a začnu na nich zaškolit, vede ke změnám v aktuálním politickém rozhodnutí. Existuje klasický článek o Atari, který tvrdí, že replay buffery *jsou* jakýmsi neparametrickým modelem světa. Tento článek dosahuje špičkového výkonu "blízko" silným algoritmům bez modelů, ale s mnohem menší potřebou zkušeností z reálného světa, protože většina práce probíhá v plánování. Často se metody založené na modelech musí snažit dostat na úroveň jednodušších algoritmů bez modelů, a to se u benchmarku Atari100k děje dodnes. Jedná se o klasický modelový systém s modelem přechodu a odměny stavů. Největším problémem přechodových modelů bývá obvykle to, že se chyby rychle hromadí, takže nelze předpovědět mnoho kroků do budoucna. Přechodové modely berou stav plus akci a předpovídají další stav a odměnu, která z akce vyplyne. Jedním z klíčových zjištění článku bylo, že pokus naučit se deterministický přechodový model v podstatě selhal. Stochastický model bylo možné trénovat, ale výkon se zlepšil, když se v modelu kombinovaly deterministické i stochastické výpočty. Zajímavé je podrobně se podívat na video predikční snímky v příloze H: jakmile deterministický GRU přechodový model ztratil zápletku na jednom snímku, vše po něm zůstalo rozbité, zatímco stochastický model mohl na jednom snímku přejít do něčeho nesmyslného, ale pak se vrátit zpět k něčemu smysluplnému. To bych nečekal. Jejich kompletní kombinovaný model poskytoval po celou dobu dobré předpovědi. Neexistuje žádná síť politik nebo hodnot jako v modelově bezmodelovém RL. Akce se vybírají vyzkoušením jejich sekvence pomocí modelovaných přechodových a odměňovacích funkcí a je provedena akce, která vedla k nejlepším výsledkům. Pro každou vybranou akci jsou vyhodnocovány tisíce akčních sekvencí, ale protože pracují na kompaktních latentních vektorech, je to relativně efektivní. Metoda křížové entropie (CEM) se používá k plánování více kroků dopředu s přechodovými modely. To musí být heuristika pro prostory kontinuálních akcí nebo pro více než pár modelovaných kroků do budoucnosti. Vstup do stavové sítě je pozorování RGB 64x64 (kvantované na 5 bitů jako GLOW; Nejsem si jistý, proč je to nutné). Během tréninku mají pozorovací model, který se snaží vrátit zpět ze stavu do pixelového pozorování. To je obecně nemožné provést dokonale, když je stav menší než obraz, ale pokus o to poskytuje bohatý zpětnovazební signál o tom, co do stavu vložit. To se nepoužívá v žádné části rozhodovacího procesu akce, je to jen pomůcka na výcvik. Opakování akce od 2 do 8, podle úkolu. Latentní překročení jako regularizátor v latentním prostoru, který podporuje iterované jednokrokové a vícestupňové predikce, aby odpovídaly.