Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 12
2019: Apprendimento delle dinamiche latenti per la pianificazione a partire dai pixel (PlaNet)
Questo è stato il precursore della serie di agenti / articoli Dreamer 1/2/3/4, che leggerò in sequenza.
La pianificazione è comune in compiti con dinamiche di transizione e ricompensa completamente specificate, come i giochi da tavolo, ma è molto più impegnativa quando devi imparare le "regole del gioco" mentre stai cercando di migliorare le tue prestazioni, specialmente quando cerchi di farlo a partire da pixel grezzi invece di caratteristiche di stato perfettamente osservate.
A volte difendo semi-seriamente la posizione che la "pianificazione" potrebbe non essere effettivamente una cosa, almeno a livelli bassi come questo, e sembra solo pianificazione quando esperienze rilevanti vengono richiamate dalla memoria e l'addestramento bootstrap su di esse porta a cambiamenti nella decisione politica attuale. C'è un classico articolo su Atari che sostiene che i buffer di replay *sono* una sorta di modello di mondo non parametrico.
Questo articolo raggiunge prestazioni di picco "vicine" ad algoritmi forti senza modello, ma con molta meno esperienza nel mondo reale necessaria, perché gran parte del lavoro avviene nella pianificazione. Spesso, i metodi basati su modelli devono lottare per raggiungere la parità con gli algoritmi più semplici senza modello, e questo è ancora in corso con il benchmark Atari100k oggi.
Questo è un classico sistema basato su modelli con un modello di transizione di stato e ricompensa. Il problema più grande con i modelli di transizione è di solito che gli errori si accumulano rapidamente, quindi non puoi prevedere molti passi nel futuro.
I modelli di transizione prendono uno stato più un'azione e prevedono il prossimo stato e la ricompensa che risulta dall'azione intrapresa. Una delle scoperte chiave dell'articolo è stata che cercare di apprendere un modello di transizione deterministico ha fondamentalmente fallito. Un modello stocastico potrebbe essere addestrato, ma le prestazioni sono migliorate quando hanno combinato sia calcoli deterministici che stocastici nel modello.
Guardare da vicino i fotogrammi di previsione video nell'appendice H è interessante: una volta che il modello di transizione GRU deterministico ha perso il filo in un fotogramma, tutto il resto è rimasto rotto, mentre il modello stocastico poteva passare a qualcosa di insensato in un fotogramma, ma poi tornare a qualcosa di sensato successivamente. Non l'avrei mai indovinato. Il loro modello combinato completo ha fornito buone previsioni per tutto il tempo.
Non c'è una rete di politica o valore come nel RL senza modello. Le azioni vengono selezionate provando una sequenza di esse utilizzando le funzioni di transizione e ricompensa modellate, e l'azione che ha portato ai migliori risultati viene intrapresa. Migliaia di sequenze di azioni vengono valutate per ogni azione selezionata, ma poiché operano su vettori latenti compatti, questo è relativamente efficiente. Il Metodo della Cross-Entropy (CEM) viene utilizzato per pianificare più passi avanti con i modelli di transizione. Questo deve essere euristico per spazi di azione continui o per qualsiasi cosa oltre a pochi passi modellati nel futuro.
L'input alla rete di stato è un'osservazione RGB 64x64 (quantizzata a 5 bit come GLOW; non sono chiaro sul perché questo sia necessario). Durante l'addestramento, hanno un modello di osservazione che cerca di tornare indietro da uno stato a un'osservazione pixel. Questo è generalmente impossibile da fare perfettamente quando lo stato è più piccolo dell'immagine, ma tentare fornisce un ricco segnale di feedback su cosa mettere nello stato. Questo non viene utilizzato per alcuna parte del processo decisionale dell'azione, è solo un aiuto per l'addestramento.
Ripetizione dell'azione da 2 a 8, a seconda del compito.
Sovraregolazione latente come regolarizzatore nello spazio latente che incoraggia previsioni iterated one-step e multi-step a corrispondere.
Principali
Ranking
Preferiti
