#PaperADay 14 2022: MASTERING ATARI S DISKRÉTNÍMI SVĚTOVÝMI MODELY (DreamerV2) DreamerV1 byl převážně zaměřen na kontinuální ovládání, ale také ukázal základní hraní her pro Atari a úlohy DMLab. DreamerV2 model vylepšil tak, aby dosáhl špičkového výkonu na Atari suite z roku 55, a také vyřešil obtížnější úkol s humanoidní chůzí a kontinuálním ovládáním. Toto je opravdu inženýrský článek a já jsem tu pro něj! V příloze C shrnují změny, které vedly ke zlepšení výkonu, a také (což je v článcích velmi vzácné!) seznam věcí, které zkusili a nevyšly. Algoritmy jsou zobrazeny v reálném kódu s názvy místo řeckých písmen. Je pozoruhodné, že používají pouze obrázky v šedých tónech 64x64 jako vstup, a ty byly zmenšeny z běžného rozlišení 84x84, které používá DQN, takže to není ani dokonalý 64x64 obraz ze zdroje. To jsou velmi rozmazané vstupy pro tak dobré skóre. Zajímá mě, jestli by použití 128x128xRGB obrázků s další konverzační vrstvou zlepšilo výkon, nebo jestli by větší detaily ztížily trénování světového modelu. Jejich největší změnou bylo nahrazení gaussovských latentů ve stylu VAE, které byly pouze 32 párů průměr/variace, kategoriálními proměnnými: 32 proměnnými ve 32 kategoriích. Nemají jednoznačnou teorii, proč je to mnohem lepší, ale nabízejí několik teorií. Bylo by zajímavé porovnat více gaussianů s většími kategoriálními výstupy. Další velkou změnou algoritmu bylo "KL balancování", tedy použití jiné rychlosti učení pro předchozí a zadní váhy, takže prediktor trénuje rychleji než reprezentace. Společná optimalizace byla zřejmě problematická pro V1. DreamerV1 měl problémy s průzkumem, a přesto měl epsilon-náhodnou akci navíc ke stochastické akční politice. Vylepšený model regularizace a dynamiky od V2 jim umožňuje opustit dodatečnou náhodnost a spoléhat se výhradně na politiku. Přinášejí však zásadní změny v nastavení ztrát a tréninku KL pro kontinuální ovládání versus diskrétní ovládání Atari. Modely také zvětšili a aktivovali ELU všude. Jejich hodnotící protokol pro Atari je dobrý: plný akční prostor s povolenými přilepenými akcemi. Skóre je natolik vysoké, že doporučují novou metriku: "průměr oříznutého rekordu" – normalizovat na lidský světový rekord, pokud je nad tím, oříznout a pak vzít průměr všech her. Historické výsledky Atari RL se srovnávaly s "lidskými" skóre, která původně tvořili náhodní lidé, později profesionální hráči, ale pro mocné agenty v režimu 200M snímků má tento oříznutý rekord smysl. Během tréninku bylo představováno přes 200 milionů rámců reálného prostředí, tedy 50 milionů akčních výběrů s action_repeat 4, 468 miliard latentních stavů, což představuje téměř desetkrát větší zkušenost, než by zažil model free agent. Skutečný zážitek z prostředí je trénován v dávkach po 50 krocích každá. Sekvence jsou omezeny tak, aby nepřekračovaly hranice epizod. Při trénování funkcí politiky a hodnoty se imaginární sekvence rozvádějí pro 15 kroků. Hodnoty jsou naučené na MSE, ne kategorické. Používá se tradiční cílová síť hodnot, která aktualizuje každých 100 kroků gradientu.