#PaperADay 15 2024: Zvládnutí rozmanitých oblastí prostřednictvím světových modelů (DreamerV3) Nejnovější model Dreamer aplikuje na více než 150 různorodých úkolů, získává špičkové skóre u mnoha z nich, ale nejvýrazněji ho aplikuje na těžbu diamantů v Minecraftu, což je výrazně těžší výzva než většina RL úkolů. Tisk to uvedl jako "AI řeší Minecraft", což je zavádějící. Po 30 milionech (20 Hz) environmentálních kroků (17 dní v kuse) vytěžila diamant. Na rozdíl od her na Atari, které se hrají se stejnými pixely a ovládáním jako člověk, je to upravené rozhraní s inventářem a statistikami přímo zobrazenými modelu a kategorický akční prostor – žádné pohybování myší po inventáři a craftingových obrazovkách. Těžba musela být upravena na okamžité přerušení místo obvyklého vícesekundového držení tlačítka těžby, protože Dreamer používá stochastické akční politiky, které téměř nedokážou držet tlačítko stovky snímků v řadě. Podobně skoková akce vyžadovala více snímků držení, takže byla okamžitá. Přesto to bylo poprvé, co se RL agent dostal tak daleko bez použití napodobování učení od lidských hráčů, a došlo k významným zlepšením i na všech ostatních benchmarkech. Vylepšení byla převážně inženýrská grindování, nikoli zcela odlišné architektury. Chyběla mi část "věci, které jsme zkoušeli a nevyšlo to" z V2. Díky změnám mohou ziskově škálovat model z parametrů 12M na 400M a poměr přehrávání z 1 na 64násobek rychlosti prostředí. Terminologie článku je nyní blíže ostatním RL článkům: "Continue predictor" místo "discount predictor" a používá Pi pro politické sítě. Diagramy jsou vylepšeny. U společně trénovaných modelů existuje napětí mezi tím, že model reprezentace chce degenerovat, aby bylo předpovídání jednodušší, a tím, že je užitečný pro předpovídání následujících stavů. Jedním z triků, které používají, jsou "free bits", tedy střihnutí ztrát pod určitou úrovní, aby se nesnažili jet až na nulu, což umožňuje soupeřům postupovat bez odporu. Pro kategorická rozdělení používají 1% vyhlazování štítků na kategorických rozděleních, aby se zabránilo výkyvům v KL ztrátě. Tento systém nazývají "unimix" pro smíchání rovnoměrného rozdělení nad existujícím rozdělením. To je nestandardní (na rozdíl od vyhlazování štítků), ale dá se říct, že lepší terminologie. Používají dvou-horkou kategorickou hodnotu místo regrese MSE pro kritika, ale na rozdíl od většiny ostatních implementací používají exponenciálně rozmístěné biny místo lineárních, aby mohly pokrýt několik řádů velikosti. Definují funkce symlog() / symexp(), které umožňují sítím zpracovávat velmi rozdílné hodnoty v kladných i záporných rozsahech. Podle zpráv funguje lépe než podobná nelineární transformace použitá v MuZero a Muesli. To zřejmě vyžadovalo určitou opatrnost: "Pro výpočet očekávané predikce softmax rozdělení pod biny, které pokrývají mnoho řádů velikosti, záleží na pořadí součtu a kladné a záporné biny by měly být sečteny odděleně, od malých po velké, a poté přičteny." Závěrečná vrstva modelů odměn a kritiky je inicializována bez nuly místo náhodně, aby se předešlo potenciálně velkým falešným hodnotám na začátku tréninku. Cílovým modelem hodnotové funkce je nyní EMA místo periodické kopie. Aby dosáhli stejného rozsahu průzkumu ze svého politického gradientu bez ohledu na škálu hodnotových funkcí, škálují (exponenciálně rozložené, tedy potenciálně velmi velké) výnosy do omezeného rozsahu, přičemž zohledňují pouze rozsah 5 % až 95 %, který je vidět jako vyloučení odlehlých hodnot. ...