Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
12 #PaperADay
2019: Aprendendo Dinâmica Latente para Planejamento a partir de Pixels (PlaNet)
Este foi o precursor da série Dreamer 1/2/3/4 de agentes/artigos da vida real, que vou ler em sequência.
Planejar é comum em tarefas com dinâmicas de transição e recompensa totalmente especificadas, como jogos de tabuleiro, mas é muito mais desafiador quando você precisa aprender as "regras do jogo" ao mesmo tempo em que tenta melhorar seu desempenho, especialmente ao tentar fazer isso a partir de pixels brutos em vez de características de estado perfeitamente observadas.
Às vezes, meio brincando defendo a posição de que "planejamento" pode não existir de verdade, pelo menos em níveis baixos como esse, e parece que planejar quando experiências relevantes são lembradas da memória e o treinamento bootstrap sobre elas resulta em mudanças na decisão política atual. Existe um artigo clássico da Atari que defende que os buffers de replay *são* uma espécie de modelo de mundo não paramétrico.
Este artigo alcança desempenho máximo "próximo a" algoritmos fortes livres de modelos, mas com muito menos experiência prática necessária, porque a maior parte do trabalho está sendo feita em planejamento. Frequentemente, métodos baseados em modelos precisam ter dificuldades para alcançar a paridade com os algoritmos mais simples sem modelo, e isso ainda acontece com o benchmark Atari100k hoje.
Este é um sistema clássico baseado em modelo, com transição de estado e modelo de recompensa. O maior problema dos modelos de transição geralmente é que os erros se acumulam rapidamente, então você não pode prever muitos passos futuros.
Os modelos de transição pegam um estado mais uma ação, e preveem o próximo estado e a recompensa resultante da ação. Uma das principais conclusões do artigo foi que tentar aprender um modelo de transição determinística basicamente falhou. Um modelo estocástico podia ser treinado, mas o desempenho melhorava quando combinavam cálculos determinísticos e estocásticos no modelo.
Observar de perto os quadros de previsão de vídeo no apêndice H é interessante: uma vez que o modelo determinístico de transição GRU perdia o gráfico em um quadro, tudo o que vinha depois permanecia quebrado, enquanto o modelo estocástico podia transitar para algo sem sentido em um quadro, mas depois voltava para algo sensato. Eu não teria imaginado isso. O modelo combinado completo deles deu previsões bem visíveis ao longo do tempo.
Não existe uma rede de políticas ou valores como no RL sem modelos. As ações são selecionadas testando uma sequência delas usando as funções de transição e recompensa modeladas, e a ação que levou aos melhores resultados é realizada. Milhares de sequências de ação são avaliadas para cada ação selecionada, mas como operam em vetores latentes compactos, isso é relativamente eficiente. O Método de Entropia Cruzada (CEM) é usado para planejar múltiplos passos adiantados com os modelos de transição. Isso precisa ser heurístico para espaços de ação contínuos ou para mais do que alguns passos modelados no futuro.
A entrada para a rede de estados é uma observação RGB 64x64 (quantizada para 5 bits como GLOW; Não entendi bem por que isso é necessário). Durante o treinamento, eles têm um modelo de observação que tenta retroceder de um estado para uma observação em pixel. Isso geralmente é impossível de fazer perfeitamente quando o estado é menor que a imagem, mas tentar fornece um sinal de feedback rico sobre o que colocar no estado. Isso não é usado em nenhuma parte do processo de decisão de ação, é apenas um auxílio de treinamento.
Repetição de ação de 2 a 8, dependendo da tarefa.
Excesso latente como regularizador no espaço latente que incentiva previsões iteradas de um e múltiplos passos para corresponder.
Melhores
Classificação
Favoritos
