#PaperADay 15 2024: Beherrschung verschiedener Bereiche durch Weltmodelle (DreamerV3) Wendet das neueste Dreamer-Modell auf über 150 verschiedene Aufgaben an und erzielt in vielen von ihnen Spitzenwerte, insbesondere wird es auf das Schürfen von Diamanten in Minecraft angewendet, eine erheblich schwierigere Herausforderung als die meisten RL-Aufgaben. Die Presse berichtete darüber als „KI löst Minecraft“, was irreführend ist. Nach 30 Millionen (20 Hz) Umgebungs-Schritten (17 Tage nonstop) wurde ein Diamant geschürft. Im Gegensatz zu den Atari-Spielen, die mit denselben Pixeln und Steuerungen gespielt werden, die ein Mensch verwendet, handelt es sich hierbei um eine modifizierte Schnittstelle, bei der das Inventar und die Statistiken direkt dem Modell präsentiert werden, und einem kategorialen Aktionsraum – kein Herumklicken im Inventar und auf den Crafting-Bildschirmen. Das Schürfen musste so modifiziert werden, dass es sofort bricht, anstatt den normalen mehrsekündigen Druck auf die Schürftaste zu erfordern, da Dreamer stochastische Aktionspolitiken verwendet, die fast nicht in der Lage sind, einen Knopf für Hunderte von Frames hintereinander zu halten. Ähnlich erforderte die Sprungaktion mehrere Frames des Haltens, sodass sie sofort gemacht wurde. Dennoch war es das erste Mal, dass ein RL-Agent so weit gekommen ist, ohne Imitationslernen von menschlichen Spielern verwendet zu haben, und es wurden auch signifikante Verbesserungen bei allen anderen Benchmarks erzielt. Die Verbesserungen waren größtenteils technische Arbeiten, anstatt völlig unterschiedliche Architekturen. Ich habe den Abschnitt „Dinge, die wir ausprobiert haben, die nicht funktioniert haben“ aus V2 vermisst. Mit den Änderungen können sie das Modell profitabel von 12M auf 400M Parameter skalieren und das Replay-Verhältnis von 1 auf 64 Mal die Umgebungsrate. Die Terminologie des Papiers ist jetzt näher an anderen RL-Papieren: „Continue predictor“ anstelle von „discount predictor“ und Verwendung von Pi für Politiknetzwerke. Die Diagramme sind verbessert. Mit den gemeinsam trainierten Modellen gibt es eine Spannung zwischen dem Repräsentationsmodell, das degenerieren möchte, um die Vorhersage zu erleichtern, und nützlich zu sein, um folgende Zustände vorherzusagen. Einer der Tricks, die sie verwenden, sind „freie Bits“, die Verluste beschneiden, wenn sie unter einem bestimmten Niveau liegen, damit sie nicht versuchen, bis null zu fahren, was der gegnerischen Kraft ermöglicht, ungehindert Fortschritte zu machen. Für die kategorialen Verteilungen verwenden sie 1% Label-Smoothing auf den kategorialen Verteilungen, um Spitzen im KL-Verlust zu vermeiden. Sie nennen dies „unimix“, um eine uniforme Verteilung über die bestehende Verteilung zu mischen. Dies ist nicht standardmäßig (im Vergleich zu Label-Smoothing), aber möglicherweise eine bessere Terminologie. Sie verwenden einen zwei-heißen kategorialen Wert anstelle von MSE-Regression für den Kritiker, verwenden jedoch im Gegensatz zu den meisten anderen Implementierungen exponentiell verteilte Bins anstelle von linear verteilten, sodass sie mehrere Größenordnungen abdecken können. Sie definieren Funktionen symlog() / symexp(), um den Netzwerken zu ermöglichen, weit variierende Werte in sowohl positiven als auch negativen Bereichen zu verarbeiten. Berichten zufolge funktioniert dies besser als die ähnliche nichtlineare Transformation, die in MuZero und Muesli verwendet wird. Dies erforderte anscheinend etwas Sorgfalt: „Um die erwartete Vorhersage der Softmax-Verteilung unter Bins zu berechnen, die viele Größenordnungen abdecken, spielt die Summationsreihenfolge eine Rolle, und positive und negative Bins sollten separat summiert werden, von kleinen zu großen Bins, und dann addiert werden.“ Die letzte Schicht der Belohnungs- und Kritiker-Modelle ist null-initialisiert, anstatt zufällig initialisiert zu werden, um potenziell große spurious Werte zu Beginn des Trainings zu vermeiden. Das Zielmodell für die Wertfunktion ist jetzt ein EMA anstelle einer periodischen Kopie. ...