Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 15
2024: Å mestre mangfoldige domener gjennom verdensmodeller
(DreamerV3)
Bruker den nyeste Dreamer-modellen på over 150 forskjellige oppgaver, og får topp moderne poengsummer på mange av dem, men mest bemerkelsesverdig bruker den på diamantgruvedrift i Minecraft, en betydelig vanskeligere utfordring enn de fleste virkelige oppgaver.
Pressen rapporterte dette som «AI løser Minecraft», noe som er misvisende. Etter 30 millioner (20 Hz) miljøsteg (17 dager uten stopp) utvant den en diamant. I motsetning til Atari-spillene, som spilles med de samme pikslene og kontrollene som et menneske bruker, er dette et modifisert grensesnitt med inventar og statistikk presentert direkte til modellen, og et kategorisk handlingsområde – ingen musebevegelser rundt inventar- og håndverksskjermene.
Mining måtte endres til instant-break i stedet for det vanlige flersekunders inngrepet på gruveknappen fordi Dreamer bruker stokastiske handlingspolitikker, som nesten ikke klarer å holde inne en knapp i hundrevis av rammer på rad. På samme måte krevde hoppbevegelsen flere frames med holding, så det ble gjort umiddelbart.
Likevel var det første gang en RL-agent hadde kommet så langt uten å ha brukt imitasjonslæring fra menneskelige spillere, og betydelige forbedringer ble gjort på alle de andre benchmarkene også.
Forbedringene var stort sett ingeniørarbeid, snarere enn helt forskjellige arkitekturer. Jeg gikk glipp av «ting vi prøvde som ikke fungerte»-delen fra V2.
Med endringene kan de lønnsomt skalere modellen fra 12M til 400M parametere, og gjenspillingsraten fra 1 til 64 ganger miljøfrekvensen.
Artikkelterminologien ligner nå mer på andre RL-artikler: «Continue predictor» i stedet for «discount predictor» og bruker Pi for policynettverk. Diagrammene er forbedret.
Med de felles trente modellene er det en spenning mellom at representasjonsmodellen ønsker å degenerere for å gjøre prediksjon enklere og at den er nyttig for å forutsi påfølgende tilstander. Et av triksene de bruker er «gratis biter», som klipper tapene når de er under et visst nivå slik at de ikke prøver å kjøre helt til null, slik at motstanderen kan gjøre fremgang uten motstand.
For de kategoriske fordelingene bruker de 1 % etikettutjevning på de kategoriske fordelingene for å unngå topper i KL-tapet. De kaller dette "unimix" for å blande en jevn fordeling oppå den eksisterende fordelingen. Dette er ikke-standard (i motsetning til label-utjevning), men kan argumenteres for bedre terminologi.
De bruker en to-hot kategorisk verdi i stedet for MSE-regresjon for kritikeren, men i motsetning til de fleste andre implementasjoner, bruker de eksponentielt plasserte bins i stedet for lineært plasserte slik at de kan dekke flere størrelsesordener. De definerer funksjonene symlog() / symexp() for å la nettverkene håndtere svært varierende verdier i både positive og negative områder. Angivelig fungerer dette bedre enn den lignende ikke-lineære transformasjonen som brukes i MuZero og Muesli.
Dette krevde tilsynelatende en viss forsiktighet: «For å beregne forventet prediksjon av softmax-fordelingen under bins som spenner over mange størrelsesordener, betyr summeringsordenen noe, og positive og negative bins bør summeres separat, fra små til store bins, og deretter legges til.»
Det siste laget i belønnings- og kritikermodellene nullinitialiseres i stedet for tilfeldig for å unngå potensielt store falske verdier i starten av treningen.
Målmodellen for verdifunksjonen er nå en EMA i stedet for en periodisk kopi.
For å få samme mengde utforskning fra sin policygradient uavhengig av skalaen på verdifunksjonene, skalerer de de (eksponentielt fordelte, altså potensielt svært store) avkastningene til et begrenset område, og tar kun hensyn til intervallet 5 % til 95 % som anses å utelukke uteliggere.
...
Topp
Rangering
Favoritter
