#PaperADay 14 2022 : MAÎTRISER L'ATARI AVEC DES MODÈLES MONDIAUX DISCRETS (DreamerV2) DreamerV1 était principalement destiné aux tâches de contrôle continu, mais il a également démontré une capacité de jeu de base sur des jeux Atari et des tâches DMLab. DreamerV2 a amélioré le modèle pour atteindre des performances de pointe sur la suite de 55 jeux Atari, et a également résolu la tâche de contrôle continu plus difficile de marche humanoïde. C'est vraiment un article d'ingénierie, et je suis là pour ça ! Dans l'annexe C, ils résument les changements qui ont conduit à une amélioration des performances, et aussi (très rare dans les articles !) une liste de choses qu'ils ont essayées et qui n'ont pas fonctionné. Les algorithmes sont montrés dans un code réel avec des noms au lieu de lettres grecques. Il est notable qu'ils n'utilisent que des images en niveaux de gris de 64x64 comme entrée, et celles-ci ont été réduites à partir de la résolution commune de 84x84 utilisée par DQN, donc ce n'est même pas une image parfaite de 64x64 à partir de la source. Ce sont des entrées très floues pour des scores aussi bons. Je me demande si l'utilisation d'images 128x128xRGB avec une couche conv supplémentaire améliorerait les performances, ou si le détail supplémentaire rendrait l'entraînement du modèle mondial plus difficile. Leur plus grand changement a été de remplacer les latents gaussiens de style VAE, qui n'étaient que 32 paires moyenne/variance, par des variables catégorielles : 32 variables de 32 catégories. Ils n'ont pas de théorie concluante expliquant pourquoi c'est tellement mieux, mais proposent plusieurs théories. Il aurait été intéressant de comparer plus de gaussiens contre les sorties catégorielles plus grandes. L'autre grand changement algorithmique était le "KL balancing", ou l'utilisation d'un taux d'apprentissage différent pour les poids antérieurs et postérieurs, de sorte que le prédicteur s'entraîne plus rapidement que la représentation. L'optimisation conjointe était apparemment problématique pour V1. DreamerV1 avait des difficultés avec l'exploration, et avait toujours une action aléatoire epsilon en plus de la politique d'action stochastique. La régularisation améliorée et le modèle dynamique de V2 leur permettent de supprimer le surplus de randomisation et de se fier uniquement à la politique. Ils apportent également des changements substantiels dans la perte KL et la configuration d'entraînement pour les tâches de contrôle continu par rapport aux tâches de contrôle Atari discrètes. Ils ont également agrandi les modèles et utilisé l'activation ELU partout. Leur protocole d'évaluation Atari est bon : espace d'action complet avec actions collantes activées. Les scores sont suffisamment élevés pour qu'ils recommandent une nouvelle métrique : les scores "clipped record mean" – normaliser par rapport au record du monde humain, en coupant si c'est au-dessus de cela, puis en prenant la moyenne de tous les jeux. Les résultats historiques de RL Atari ont été comparés aux scores "humains", qui étaient à l'origine des personnes aléatoires, puis finalement un joueur professionnel, mais pour des agents puissants dans le régime de 200M d'images, cette métrique de record coupé a du mérite. Lors de l'entraînement sur plus de 200 millions d'images d'environnement réelles, ou 50 millions de sélections d'actions avec action_repeat 4, 468 milliards d'états latents ont été imaginés, pour près de 10 fois l'expérience qu'un agent sans modèle aurait vue. L'expérience de l'environnement réel est entraînée par lots de 50 séquences de 50 étapes chacune. Les séquences sont contraintes à ne pas franchir les frontières d'épisode. Lors de l'entraînement des fonctions de politique et de valeur, des séquences imaginaires sont déroulées pendant 15 étapes. ...