#PaperADay 14 2022: MEISTERUNG VON ATARI MIT DISKRETEN WELTMODELLEN (DreamerV2) DreamerV1 war hauptsächlich auf kontinuierliche Steuerungsaufgaben ausgerichtet, zeigte jedoch auch grundlegendes Spielen von Atari-Spielen und DMLab-Aufgaben. DreamerV2 verbesserte das Modell, sodass es eine Spitzenleistung in der 55-Spiel-Atari-Suite erzielte und auch die schwierigere humanoid-walk kontinuierliche Steuerungsaufgabe löste. Dies ist sehr stark ein Ingenieurpapier, und ich bin dafür hier! Im Anhang C fassen sie die Änderungen zusammen, die zu einer verbesserten Leistung führten, und auch (sehr selten in Papieren!) eine Liste von Dingen, die sie ausprobiert haben und die nicht funktioniert haben. Algorithmen werden in echtem Code mit Namen anstelle von griechischen Buchstaben gezeigt. Es ist bemerkenswert, dass sie nur 64x64 Graustufenbilder als Eingabe verwenden, die von der üblichen 84x84 Auflösung, die von DQN verwendet wird, heruntergerechnet wurden, sodass es sich nicht einmal um ein perfektes 64x64 Bild aus der Quelle handelt. Das sind sehr verschwommene Eingaben für so gute Ergebnisse. Ich bin neugierig, ob die Verwendung von 128x128xRGB-Bildern mit einer zusätzlichen Convolution-Schicht die Leistung verbessern würde oder ob die zusätzlichen Details es dem Weltmodell erschweren würden, zu trainieren. Ihre größte Änderung bestand darin, die VAE-Stil-Gaussian-Latents, die nur 32 Mittelwert/Varianz-Paare waren, durch kategoriale Variablen zu ersetzen: 32 Variablen mit 32 Kategorien. Sie haben keine schlüssige Theorie, warum dies so viel besser ist, bieten jedoch mehrere Theorien an. Es wäre interessant gewesen, mehr Gaussische gegen die größeren kategorialen Ausgaben zu vergleichen. Die andere große algorithmische Änderung war „KL-Balancierung“ oder die Verwendung einer anderen Lernrate für die Prior- und Posterior-Gewichte, sodass der Prädiktor schneller trainiert als die Repräsentation. Die gemeinsame Optimierung war anscheinend problematisch für V1. DreamerV1 hatte Schwierigkeiten mit der Exploration und hatte immer noch eine epsilon-zufällige Aktion zusätzlich zur stochastischen Aktionspolitik. Die verbesserte Regularisierung und das Dynamikmodell von V2 ermöglichen es ihnen, die zusätzliche Zufälligkeit abzulehnen und sich ausschließlich auf die Politik zu verlassen. Sie nehmen auch einige wesentliche Änderungen im KL-Verlust und im Trainingssetup für die kontinuierliche Steuerung im Vergleich zu diskreten Atari-Steuerungsaufgaben vor. Sie haben auch die Modelle hochskaliert und überall ELU-Aktivierungen verwendet. Ihr Atari-Bewertungsprotokoll ist gut: voller Aktionsraum mit aktivierten klebrigen Aktionen. Die Punktzahlen sind hoch genug, dass sie eine neue Metrik empfehlen: „clipped record mean“ Punktzahlen – normalisieren auf den menschlichen Weltrekord, clipping, wenn es darüber liegt, und dann den Durchschnitt aller Spiele nehmen. Die historischen Atari RL-Ergebnisse wurden mit „menschlichen“ Punktzahlen verglichen, die ursprünglich einige zufällige Personen waren, dann schließlich ein professioneller Spieler, aber für leistungsstarke Agenten im 200M-Frame-Regime hat diese clipped record Metrik ihren Wert. Während des Trainings über 200 Millionen reale Umwelt-Frames oder 50 Millionen Aktionsauswahlen mit action_repeat 4 wurden 468 Milliarden latente Zustände imaginiert, was fast 10x der Erfahrung entspricht, die ein modellfreier Agent gesehen hätte. Die echte Umwelterfahrung wird in Batches von 50 Sequenzen mit jeweils 50 Schritten trainiert. Sequenzen sind darauf beschränkt, die Episoden-Grenzen nicht zu überschreiten. Beim Training der Politik- und Wertfunktionen werden imaginäre Sequenzen für 15 Schritte ausgerollt. ...