#PaperADay 12 2019 : Apprendre les dynamiques latentes pour la planification à partir des pixels (PlaNet) C'était le précurseur de la série d'agents / articles Dreamer 1/2/3/4, que je vais lire dans l'ordre. La planification est courante dans les tâches avec des dynamiques de transition et de récompense entièrement spécifiées, comme les jeux de société, mais elle est beaucoup plus difficile lorsque vous devez apprendre les "règles du jeu" en même temps que vous essayez d'améliorer vos performances, surtout lorsque vous essayez de le faire à partir de pixels bruts au lieu de caractéristiques d'état parfaitement observées. Je défends parfois à moitié en plaisantant la position selon laquelle la "planification" pourrait en fait ne pas être une chose, du moins à des niveaux bas comme celui-ci, et cela ressemble juste à de la planification lorsque des expériences pertinentes sont rappelées de la mémoire et que l'entraînement par bootstrap sur celles-ci entraîne des changements dans la décision de politique actuelle. Il y a un article classique sur Atari qui soutient que les tampons de replay *sont* une sorte de modèle du monde non paramétrique. Cet article atteint des performances de pointe "proches" des algorithmes sans modèle puissants, mais avec beaucoup moins d'expérience du monde réel nécessaire, car la plupart du travail se fait dans la planification. Souvent, les méthodes basées sur des modèles doivent lutter pour atteindre la parité avec les algorithmes sans modèle plus simples, et cela se produit encore avec le benchmark Atari100k aujourd'hui. C'est un système classique basé sur un modèle avec un modèle de transition d'état et de récompense. Le plus gros problème avec les modèles de transition est généralement que les erreurs s'accumulent rapidement, donc vous ne pouvez pas prédire de nombreux pas dans le futur. Les modèles de transition prennent un état plus une action, et prédisent le prochain état et la récompense qui résulte de l'action. L'une des principales conclusions de l'article était que tenter d'apprendre un modèle de transition déterministe échouait essentiellement. Un modèle stochastique pouvait être entraîné, mais les performances s'amélioraient lorsqu'ils combinaient à la fois des calculs déterministes et stochastiques dans le modèle. Regarder de près les images de prédiction vidéo dans l'annexe H est intéressant : une fois que le modèle de transition GRU déterministe a perdu le fil sur une image, tout ce qui suit est resté cassé, tandis que le modèle stochastique pouvait passer à quelque chose de nonsensique sur une image, mais ensuite revenir à quelque chose de sensé par la suite. Je ne l'aurais pas deviné. Leur modèle combiné complet a donné de bonnes prédictions tout au long. Il n'y a pas de réseau de politique ou de valeur comme dans le RL sans modèle. Les actions sont sélectionnées en essayant une séquence d'entre elles en utilisant les fonctions de transition et de récompense modélisées, et l'action qui a donné les meilleurs résultats est prise. Des milliers de séquences d'actions sont évaluées pour chaque action sélectionnée, mais comme elles opèrent sur des vecteurs latents compacts, cela est relativement efficace. La méthode de l'entropie croisée (CEM) est utilisée pour planifier plusieurs étapes à l'avance avec les modèles de transition. Cela doit être heuristique pour les espaces d'actions continues ou pour plus de quelques étapes modélisées dans le futur. L'entrée du réseau d'état est une observation RGB 64x64 (quantifiée à 5 bits comme GLOW ; je ne comprends pas pourquoi cela est nécessaire). Pendant l'entraînement, ils ont un modèle d'observation qui essaie de revenir d'un état à une observation pixel. Cela est généralement impossible à faire parfaitement lorsque l'état est plus petit que l'image, mais tenter cela fournit un signal de rétroaction riche sur ce qu'il faut mettre dans l'état. Cela n'est utilisé pour aucune partie du processus de décision d'action, c'est juste une aide à l'entraînement. Répétition d'action de 2 à 8, selon la tâche. Sursaut latent en tant que régularisateur dans l'espace latent qui encourage les prédictions itérées d'une étape et de plusieurs étapes à correspondre.