Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 12
2019: Aprendendo Dinâmicas Latentes para Planejamento a partir de Pixels (PlaNet)
Este foi o precursor da série de agentes / artigos Dreamer 1/2/3/4 de RL, que vou ler em sequência.
O planejamento é comum em tarefas com dinâmicas de transição e recompensa totalmente especificadas, como jogos de tabuleiro, mas é muito mais desafiador quando você tem que aprender as "regras do jogo" ao mesmo tempo que está tentando melhorar seu desempenho, especialmente ao tentar fazer isso a partir de pixels brutos em vez de características de estado perfeitamente observadas.
Às vezes, defendo semi-brincando a posição de que "planejamento" pode não ser realmente uma coisa, pelo menos em níveis baixos como este, e parece apenas planejamento quando experiências relevantes são chamadas da memória e o treinamento bootstrap nelas resulta em mudanças na decisão de política atual. Há um artigo clássico da Atari que argumenta que buffers de replay *são* uma espécie de modelo de mundo não paramétrico.
Este artigo alcança desempenho máximo "perto de" algoritmos fortes sem modelo, mas com muito menos experiência do mundo real necessária, porque a maior parte do trabalho está acontecendo no planejamento. Muitas vezes, métodos baseados em modelo têm que lutar para alcançar paridade com os algoritmos mais simples sem modelo, e isso ainda está acontecendo com o benchmark Atari100k hoje.
Este é um sistema clássico baseado em modelo com um modelo de transição de estado e recompensa. O maior problema com modelos de transição é geralmente que os erros se acumulam rapidamente, então você não pode prever muitos passos no futuro.
Os modelos de transição pegam um estado mais uma ação e preveem o próximo estado e a recompensa que resulta da ação. Uma das principais descobertas do artigo foi que tentar aprender um modelo de transição determinístico basicamente falhou. Um modelo estocástico poderia ser treinado, mas o desempenho melhorou quando combinaram cálculos determinísticos e estocásticos no modelo.
Olhar de perto para os quadros de previsão de vídeo no apêndice H é interessante: uma vez que o modelo de transição GRU determinístico perdeu o enredo em um quadro, tudo depois permaneceu quebrado, enquanto o modelo estocástico poderia transitar para algo sem sentido em um quadro, mas depois voltar para algo sensato em seguida. Eu não teria adivinhado isso. O modelo combinado completo deles deu previsões boas ao longo de todo o tempo.
Não há rede de política ou valor como em RL sem modelo. As ações são selecionadas tentando uma sequência delas usando as funções de transição e recompensa modeladas, e a ação que levou aos melhores resultados é tomada. Milhares de sequências de ações são avaliadas para cada ação selecionada, mas como operam em vetores latentes compactos, isso é relativamente eficiente. O Método de Entropia Cruzada (CEM) é usado para planejar múltiplos passos à frente com os modelos de transição. Isso tem que ser heurístico para espaços de ação contínuos ou qualquer coisa além de alguns passos modelados no futuro.
A entrada para a rede de estado é uma observação RGB de 64x64 (quantizada para 5 bits como GLOW; não estou claro por que isso é necessário). Durante o treinamento, eles têm um modelo de observação que tenta voltar de um estado para uma observação de pixel. Isso é geralmente impossível de fazer perfeitamente quando o estado é menor que a imagem, mas tentar isso fornece um rico sinal de feedback sobre o que colocar no estado. Isso não é usado para nenhuma parte do processo de decisão de ação, é apenas uma ajuda ao treinamento.
Repetição de ação de 2 a 8, dependendo da tarefa.
Overshooting latente como um regularizador no espaço latente que incentiva previsões iteradas de um passo e múltiplos passos a corresponder.
Top
Classificação
Favoritos
