DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

#PaperADay 12 2019: Lernen latenter Dynamiken für die Planung aus Pixeln (PlaNet) Dies war der Vorläufer der Dreamer 1/2/3/4-Serie von RL-Agenten/Papieren, die ich der Reihe nach lesen werde. Planung ist in Aufgaben mit vollständig spezifizierten Übergangs- und Belohnungsdynamiken wie Brettspielen üblich, aber es ist viel herausfordernder, wenn man gleichzeitig die "Regeln des Spiels" lernen muss, während man versucht, die eigene Leistung zu verbessern, insbesondere wenn man dies aus rohen Pixeln anstatt aus perfekt beobachteten Zustandsmerkmalen versucht. Ich verteidige manchmal halb im Scherz die Position, dass "Planung" vielleicht tatsächlich kein Ding ist, zumindest auf niedrigen Ebenen wie dieser, und es sich nur wie Planung anfühlt, wenn relevante Erfahrungen aus dem Gedächtnis abgerufen werden und das Bootstrapping-Training auf ihnen zu Änderungen der aktuellen Politikentscheidung führt. Es gibt ein klassisches Atari-Papier, das den Fall macht, dass Replay-Puffer *eine* Art von nicht-parametrischem Weltmodell sind. Dieses Papier erreicht eine Spitzenleistung, die "nahe" an starken modellfreien Algorithmen liegt, jedoch mit viel weniger realer Erfahrung, da der Großteil der Arbeit in der Planung stattfindet. Oft müssen modellbasierte Methoden kämpfen, um mit den einfacheren modellfreien Algorithmen gleichzuziehen, und das geschieht immer noch mit dem Atari100k-Benchmark heute. Dies ist ein klassisches modellbasiertes System mit einem Zustandsübergangs- und Belohnungsmodell. Das größte Problem bei Übergangsmodellen ist normalerweise, dass Fehler schnell akkumulieren, sodass man nicht viele Schritte in die Zukunft vorhersagen kann. Die Übergangsmodelle nehmen einen Zustand plus eine Aktion und sagen den nächsten Zustand und die Belohnung voraus, die sich aus der Ausführung der Aktion ergibt. Eine der wichtigsten Erkenntnisse des Papiers war, dass der Versuch, ein deterministisches Übergangsmodell zu lernen, im Grunde gescheitert ist. Ein stochastisches Modell konnte trainiert werden, aber die Leistung verbesserte sich, als sie sowohl deterministische als auch stochastische Berechnungen im Modell kombinierten. Genau hinzuschauen auf die Video-Vorhersage-Frames im Anhang H ist interessant: Sobald das deterministische GRU-Übergangsmodell bei einem Frame den Faden verlor, blieb alles danach kaputt, während das stochastische Modell in einem Frame in etwas Unsinniges übergehen konnte, aber dann danach wieder in etwas Sinnvolles zurückkehrte. Das hätte ich nicht gedacht. Ihr vollständiges kombiniertes Modell lieferte durchweg gut aussehende Vorhersagen. Es gibt kein Politik- oder Wertnetzwerk wie in modellfreiem RL. Aktionen werden ausgewählt, indem man eine Sequenz von ihnen ausprobiert, wobei die modellierten Übergangs- und Belohnungsfunktionen verwendet werden, und die Aktion, die zu den besten Ergebnissen führte, wird ausgeführt. Tausende von Aktionssequenzen werden für jede ausgewählte Aktion bewertet, aber da sie auf kompakten latenten Vektoren operieren, ist dies relativ effizient. Die Cross-Entropy-Methode (CEM) wird verwendet, um mehrere Schritte im Voraus mit den Übergangsmodellen zu planen. Dies muss heuristisch für kontinuierliche Aktionsräume oder mehr als ein paar modellierte Schritte in die Zukunft sein. Der Eingang zum Zustandsnetzwerk ist eine 64x64 RGB-Beobachtung (quantisiert auf 5 Bits wie GLOW; ich bin mir nicht klar, warum dies notwendig ist). Während des Trainings haben sie ein Beobachtungsmodell, das versucht, rückwärts von einem Zustand zu einer Pixelbeobachtung zu gelangen. Dies ist im Allgemeinen unmöglich, perfekt zu tun, wenn der Zustand kleiner ist als das Bild, aber der Versuch bietet ein reichhaltiges Feedbacksignal dafür, was in den Zustand aufgenommen werden soll. Dies wird für keinen Teil des Entscheidungsprozesses verwendet, es ist nur ein Trainingshilfsmittel. Aktion-Wiederholung von 2 bis 8, je nach Aufgabe. Latentes Überschießen als Regularisierer im latenten Raum, der iterierte Ein-Schritt- und Mehr-Schritt-Vorhersagen fördert, um übereinzustimmen.

Top

Ranking

Favoriten