#PaperADay 14 2022: MASTERIZANDO ATARI COM MODELOS DE MUNDOS DISCRETOS (Sonhador V2) DreamerV1 era focado principalmente em tarefas de controle contínuo, mas também demonstrava a prática básica de jogar jogos Atari e tarefas DMLab. DreamerV2 melhorou o modelo para alcançar desempenho de última geração no conjunto Atari de 55 jogos, além de resolver a tarefa mais difícil de controle contínuo humanoide. Este é realmente um trabalho de engenharia, e eu estou aqui para isso! No apêndice C, eles resumem as mudanças que levaram a uma melhora no desempenho e também (muito raro em artigos!) uma lista de coisas que tentaram e que não deram certo. Algoritmos são mostrados em código real com nomes em vez de letras gregas. É notável que eles usam apenas imagens em escala de cinza 64x64 como entrada, e essas foram reduzidas em relação à resolução comum de 84x84 usada pela DQN, então nem é uma imagem perfeita de 64x64 da fonte. Esses são inputs muito borrados para pontuações tão boas. Estou curioso se usar imagens 128x128xRGB com uma camada extra de conv melhoraria o desempenho, ou se o detalhe extra dificultaria o treinamento do modelo do mundo. A maior mudança deles foi substituir os latentes gaussianos no estilo VAE, que eram apenas 32 pares média/var, por variáveis categóricas: 32 variáveis de 32 categorias. Eles não têm uma teoria conclusiva sobre por que isso é muito melhor, mas oferecem várias teorias. Teria sido interessante comparar mais gaussianas com as saídas categóricas maiores. A outra grande mudança algorítmica foi o "balanceamento KL", ou usar uma taxa de aprendizado diferente para os pesos a priori e a posterior, para que o preditor treine mais rápido que a representação. A otimização da articulação aparentemente era problemática para a V1. DreamerV1 teve dificuldades com a exploração, e ainda assim teve uma ação épsilon-aleatória além da política de ação estocástica. O modelo aprimorado de regularização e dinâmica do V2 permite que eles abandonem a aleatoriedade extra e dependam exclusivamente da política. Eles fazem algumas mudanças substanciais na configuração de perda e treinamento de KL para as tarefas de controle contínuo versus controle discreto da Atari. Eles também ampliaram os modelos e usaram ativação ELU em todos os lugares. O protocolo de avaliação do Atari é bom: espaço completo de ações com ações fixas ativadas. As pontuações são altas o suficiente para recomendarem uma nova métrica: "média de recorde cortado" – normalizar para o recorde mundial humano, recortar se estiver acima disso, e então pegar a média de todos os jogos. Os históricos resultados do Atari RL se compararam com as pontuações "humanas", que originalmente eram de pessoas aleatórias e depois de um gamer profissional, mas para agentes poderosos no regime de 200M, essa métrica de recorde cortada tem mérito. Durante o treinamento, mais de 200 milhões de frames em ambientes reais, ou 50 milhões de seleções de ação com action_repeat 4.468 bilhões de estados latentes, foram imaginados, para quase 10 vezes a experiência que um agente livre de modelo teria. A experiência em ambiente real é treinada em lotes de 50 sequências de 50 passos cada. As sequências são limitadas a não ultrapassar os limites dos episódios. Ao treinar as funções de política e valor, sequências imaginárias são desenroladas em 15 etapas. Os valores são treinados em MSE, não categóricos. É usada uma rede tradicional de alvo de valor, atualizando-se a cada 100 passos de gradiente.