Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 14
2022: PADRONANZA DELL'ATARI CON MODELLI MONDIALI DISCRETI
(DreamerV2)
DreamerV1 era principalmente mirato a compiti di controllo continuo, ma ha anche dimostrato una base di gioco nei giochi Atari e nei compiti DMLab. DreamerV2 ha migliorato il modello in modo da raggiungere prestazioni all'avanguardia nella suite di 55 giochi Atari e ha anche risolto il compito di controllo continuo più difficile del camminare umanoide.
Questo è molto un documento ingegneristico, e io sono qui per questo! Nell'appendice C riassumono i cambiamenti che hanno portato a prestazioni migliorate e anche (molto raro nei documenti!) un elenco di cose che hanno provato e che non hanno funzionato. Gli algoritmi sono mostrati in codice reale con nomi invece di lettere greche.
È notevole che stiano usando solo immagini in scala di grigi 64x64 come input, e queste sono state ridimensionate dalla comune risoluzione 84x84 utilizzata da DQN, quindi non è nemmeno un'immagine perfetta 64x64 dalla sorgente. Quegli input sono molto sfocati per punteggi così buoni. Sono curioso se l'uso di immagini 128x128xRGB con un ulteriore strato conv migliorerebbe le prestazioni, o se il dettaglio extra renderebbe più difficile l'addestramento del modello mondiale.
Il loro cambiamento più grande è stato sostituire i latenti gaussiani in stile VAE, che erano solo 32 coppie media/var, con variabili categoriche: 32 variabili di 32 categorie. Non hanno una teoria conclusiva sul perché questo sia così molto migliore, ma offrono diverse teorie. Sarebbe stato interessante confrontare più gaussiane contro le uscite categoriche più grandi.
L'altro grande cambiamento algoritmico è stato il "bilanciamento KL", o l'uso di un tasso di apprendimento diverso per i pesi precedenti e posteriori, in modo che il predittore si alleni più velocemente della rappresentazione. L'ottimizzazione congiunta era apparentemente problematica per V1.
DreamerV1 ha avuto difficoltà con l'esplorazione e aveva ancora un'azione casuale epsilon oltre alla politica di azione stocastica. La regolarizzazione migliorata e il modello dinamico di V2 consentono loro di eliminare la casualità extra e fare affidamento esclusivamente sulla politica.
Fanno anche alcuni cambiamenti sostanziali nella perdita KL e nella configurazione di addestramento per i compiti di controllo continuo rispetto a quelli di controllo discreto di Atari.
Hanno anche scalato i modelli e utilizzato l'attivazione ELU ovunque.
Il loro protocollo di valutazione di Atari è buono: spazio di azione completo con azioni appiccicose abilitate. I punteggi sono abbastanza alti da raccomandare una nuova metrica: punteggi "media record ritagliata" – normalizzare al record mondiale umano, ritagliando se è sopra quello, quindi prendendo la media di tutti i giochi. I risultati storici di Atari RL sono stati confrontati con i punteggi "umani", che erano originariamente alcune persone a caso, poi alla fine un giocatore professionista, ma per agenti potenti nel regime di 200M frame, questa metrica di record ritagliato ha merito.
Durante l'addestramento su oltre 200 milioni di frame di ambiente reale, o 50 milioni di selezioni di azione con action_repeat 4, sono stati immaginati 468 miliardi di stati latenti, per quasi 10 volte l'esperienza che un agente senza modello avrebbe visto.
L'esperienza dell'ambiente reale è addestrata in lotti di 50 sequenze di 50 passi ciascuna. Le sequenze sono vincolate a non attraversare i confini degli episodi.
Quando si addestrano le funzioni di politica e valore, le sequenze immaginarie vengono sviluppate per 15 passi.
...
Principali
Ranking
Preferiti
