#PaperADay 15 2024: Meesterschap in Diverse Domeinen door Wereldmodellen (DreamerV3) Past het nieuwste Dreamer-model toe op meer dan 150 diverse taken, waarbij het op veel van hen state-of-the-art scores behaalt, maar vooral, past het toe op het delven van diamanten in Minecraft, een aanzienlijk moeilijkere uitdaging dan de meeste RL-taken. De pers meldde dit als "AI lost Minecraft op", wat misleidend is. Na 30 miljoen (20 hz) omgevingsstappen (17 dagen non-stop) heeft het een diamant gedolven. In tegenstelling tot de Atari-spellen, die worden gespeeld met dezelfde pixels en bedieningselementen die een mens gebruikt, is dit een gemodificeerde interface met de inventaris en statistieken die rechtstreeks aan het model worden gepresenteerd, en een categorische actieruimte – geen muizen rond de inventaris en crafting-schermen. Het delven moest worden aangepast om direct te breken in plaats van de normale meer-seconden-houding van de delknop, omdat Dreamer stochastische actiebeleid gebruikt, die bijna niet in staat zijn om een knop honderden frames achter elkaar ingedrukt te houden. Evenzo vereiste de sprongactie meerdere frames van vasthouden, dus deze werd direct gemaakt. Toch was het de eerste keer dat een RL-agent zo ver was gekomen zonder gebruik te maken van imitatie leren van menselijke spelers, en er werden aanzienlijke verbeteringen aangebracht op alle andere benchmarks. De verbeteringen waren grotendeels engineering-werk, in plaats van volledig verschillende architecturen. Ik miste de sectie "dingen die we hebben geprobeerd die niet werkten" van V2. Met de wijzigingen kunnen ze het model winstgevend schalen van 12M naar 400M parameters, en de replay-ratio van 1 naar 64 keer de omgevingssnelheid. De terminologie in het paper is nu dichter bij andere RL-papers: "Continue voorspeller" in plaats van "kortingsvoorspeller" en gebruik van Pi voor beleidsnetwerken. De diagrammen zijn verbeterd. Met de gezamenlijk getrainde modellen is er een spanning tussen het representatiemodel dat wil degenereren om de voorspelling gemakkelijker te maken en nuttig te zijn voor het voorspellen van volgende staten. Een van de trucs die ze gebruiken is "vrije bits", het afknijpen van de verliezen wanneer deze onder een bepaald niveau liggen, zodat ze niet proberen helemaal naar nul te gaan, waardoor de tegenwerkende kracht dan ongestoord vooruitgang kan boeken. Voor de categorische verdelingen gebruiken ze 1% label smoothing op de categorische verdelingen om pieken in het KL-verlies te vermijden. Ze noemen dit "unimix" voor het mengen van een uniforme verdeling bovenop de bestaande verdeling. Dit is niet-standaard (ten opzichte van label smoothing), maar mogelijk betere terminologie. Ze gebruiken een twee-hot categorische waarde in plaats van MSE-regressie voor de criticus, maar in tegenstelling tot de meeste andere implementaties, gebruiken ze exponentieel gespreide bins in plaats van lineair gespreide, zodat ze verschillende ordes van grootte kunnen dekken. Ze definiëren functies symlog() / symexp() om de netwerken in staat te stellen om wijd variërende waarden in zowel positieve als negatieve bereiken te verwerken. Het werkt naar verluidt beter dan de vergelijkbare niet-lineaire transformatie die in MuZero en Muesli wordt gebruikt. Dit vereiste blijkbaar enige zorg: "Voor het berekenen van de verwachte voorspelling van de softmax-verdeling onder bins die vele ordes van grootte beslaan, doet de optelsom er toe en moeten positieve en negatieve bins afzonderlijk worden opgeteld, van kleine naar grote bins, en dan worden toegevoegd." De laatste laag van de beloning- en criticusmodellen is nul-geïnitieerd in plaats van willekeurig geïnitieerd om potentieel grote spurious waarden aan het begin van de training te vermijden. Het doelformodel voor de waarde functie is nu een EMA in plaats van een periodieke kopie. ...