#PaperADay 15 2024: Opanowanie Różnorodnych Dziedzin poprzez Modele Świata (DreamerV3) Zastosowano najnowszy model Dreamer do ponad 150 różnorodnych zadań, osiągając najlepsze wyniki w wielu z nich, ale co najważniejsze, zastosowano go do wydobywania diamentów w Minecraft, co stanowi znacznie trudniejsze wyzwanie niż większość zadań RL. Prasa doniosła o tym jako „AI rozwiązuje Minecraft”, co jest mylące. Po 30 milionach kroków w środowisku (20 hz) (17 dni non stop) wydobyto diament. W przeciwieństwie do gier Atari, które są grane z tymi samymi pikselami i kontrolkami, które używa człowiek, jest to zmodyfikowany interfejs, w którym zapasy i statystyki są przedstawione bezpośrednio modelowi, a przestrzeń akcji jest kategoryczna – bez klikania po zapasach i ekranach rzemiosła. Wydobycie musiało zostać zmodyfikowane, aby natychmiast łamać zamiast normalnego wielosekundowego przytrzymywania przycisku wydobycia, ponieważ Dreamer używa stochastycznych polityk akcji, które są prawie niezdolne do przytrzymywania przycisku przez setki klatek z rzędu. Podobnie, akcja skoku wymagała wielokrotnego przytrzymywania klatek, więc została zrobiona natychmiastowa. Mimo to, był to pierwszy raz, kiedy agent RL dotarł tak daleko bez użycia uczenia przez naśladowanie od graczy ludzkich, a znaczące poprawy zostały również wprowadzone we wszystkich innych benchmarkach. Poprawy były w dużej mierze inżynieryjnymi zmaganiami, a nie całkowicie różnymi architekturami. Brakowało mi sekcji „rzeczy, które próbowaliśmy, a które nie zadziałały” z V2. Dzięki zmianom mogą zyskownie skalować model z 12M do 400M parametrów, a współczynnik powtórzeń z 1 do 64 razy w stosunku do tempa środowiska. Terminologia w artykule jest teraz bliższa innym artykułom RL: „Predyktor kontynuacji” zamiast „predyktora dyskontowego” i używanie Pi dla sieci politycznych. Diagramy zostały poprawione. W przypadku wspólnie trenowanych modeli istnieje napięcie między modelem reprezentacyjnym, który chce degenerować, aby ułatwić przewidywanie, a byciem użytecznym do przewidywania kolejnych stanów. Jednym z trików, które stosują, są „wolne bity”, przycinanie strat, gdy są poniżej pewnego poziomu, aby nie próbować dążyć do zera, co pozwala przeciwnej sile na postęp bez przeszkód. Dla rozkładów kategorycznych używają 1% wygładzania etykiet w rozkładach kategorycznych, aby uniknąć szczytów w stracie KL. Nazywają to „unimix” dla mieszania rozkładu jednostajnego na istniejącym rozkładzie. To jest niestandardowe (w porównaniu do wygładzania etykiet), ale można argumentować, że to lepsza terminologia. Używają wartości kategorycznej z dwoma gorącymi etykietami zamiast regresji MSE dla krytyka, ale w przeciwieństwie do większości innych implementacji, używają eksponencjalnie rozłożonych binów zamiast liniowo rozłożonych, aby mogły pokrywać kilka rzędów wielkości. Definiują funkcje symlog() / symexp(), aby umożliwić sieciom obsługę szeroko zróżnicowanych wartości w obu dodatnich i ujemnych zakresach. Podobno działa lepiej niż podobna nieliniowa transformacja używana w MuZero i Muesli. To najwyraźniej wymagało pewnej ostrożności: „Aby obliczyć oczekiwaną prognozę rozkładu softmax pod binami, które obejmują wiele rzędów wielkości, kolejność sumowania ma znaczenie, a dodatnie i ujemne biny powinny być sumowane osobno, od małych do dużych binów, a następnie dodawane.” Ostatnia warstwa modeli nagród i krytyków jest inicjowana zerowo zamiast losowo, aby uniknąć potencjalnie dużych wartości fałszywych na początku treningu. Model docelowy dla funkcji wartości jest teraz EMA zamiast okresowej kopii. ...