#PaperADay 14 2022: DOMINANDO O ATARI COM MODELOS DE MUNDO DISCRETOS (DreamerV2) O DreamerV1 foi principalmente direcionado a tarefas de controle contínuo, mas também demonstrou um jogo básico de jogos de Atari e tarefas do DMLab. O DreamerV2 melhorou o modelo de forma que alcançou desempenho de ponta na suíte de 55 jogos do Atari, e também resolveu a tarefa de controle contínuo mais difícil de andar humanoide. Este é, de fato, um artigo de engenharia, e eu estou aqui para isso! No apêndice C, eles resumem as mudanças que levaram a um desempenho melhorado, e também (muito raro em artigos!) uma lista de coisas que tentaram e que não funcionaram. Os algoritmos são mostrados em código real com nomes em vez de letras gregas. É notável que eles estão usando apenas imagens em escala de cinza de 64x64 como entrada, e essas foram reduzidas da resolução comum de 84x84 usada pelo DQN, então não é nem mesmo uma imagem perfeita de 64x64 da fonte. Essas são entradas muito desfocadas para pontuações tão boas. Estou curioso se usar imagens de 128x128xRGB com uma camada convolucional extra melhoraria o desempenho, ou se o detalhe extra tornaria mais difícil para o modelo de mundo treinar. A maior mudança deles foi substituir os latentes gaussianos do estilo VAE, que eram apenas 32 pares de média/variância, por variáveis categóricas: 32 variáveis de 32 categorias. Eles não têm uma teoria conclusiva sobre por que isso é tão melhor, mas oferecem várias teorias. Teria sido interessante comparar mais gaussianas contra as saídas categóricas maiores. A outra grande mudança algorítmica foi o “balanceamento KL”, ou usar uma taxa de aprendizado diferente para os pesos anteriores e posteriores, de modo que o preditor treine mais rápido do que a representação. A otimização conjunta foi aparentemente problemática para o V1. O DreamerV1 teve dificuldades com a exploração e ainda tinha uma ação aleatória epsilon além da política de ação estocástica. A regularização melhorada e o modelo de dinâmica do V2 permitem que eles abandonem a aleatoriedade extra e confiem apenas na política. Eles fazem algumas mudanças substanciais na perda KL e na configuração de treinamento para as tarefas de controle contínuo em comparação com as de controle discreto do Atari. Eles também aumentaram a escala dos modelos e usaram ativação ELU em todos os lugares. O protocolo de avaliação do Atari deles é bom: espaço de ação completo com ações pegajosas habilitadas. As pontuações são altas o suficiente que eles recomendam uma nova métrica: pontuações de “média de recorde recortada” – normalizar para o recorde mundial humano, recortando se estiver acima disso, e então tomando a média de todos os jogos. Os resultados históricos de RL do Atari foram comparados com pontuações “humanas”, que eram originalmente algumas pessoas aleatórias, depois eventualmente um jogador profissional, mas para agentes poderosos no regime de 200M de quadros, essa métrica de recorde recortado tem mérito. Durante o treinamento de mais de 200 milhões de quadros de ambiente real, ou 50 milhões de seleções de ação com action_repeat 4, 468 bilhões de estados latentes foram imaginados, para quase 10x a experiência que um agente sem modelo teria visto. A experiência do ambiente real é treinada em lotes de 50 sequências de 50 passos cada. As sequências são restritas para não cruzar os limites dos episódios. Ao treinar as funções de política e valor, sequências imaginárias são desenroladas por 15 passos. ...