12 #PaperADay 2019: Aprendiendo dinámicas latentes para planificar a partir de píxeles (PlaNet) Este fue el precursor de la serie Dreamer 1/2/3/4 de agentes/artículos de la vida real, que voy a leer en secuencia. La planificación es común en tareas con dinámicas de transición y recompensa completamente especificadas, como los juegos de mesa, pero es mucho más desafiante cuando tienes que aprender las "reglas del juego" al mismo tiempo que intentas mejorar tu rendimiento, especialmente cuando intentas hacerlo desde píxeles en bruto en lugar de características de estado perfectamente observadas. A veces defiendo medio en broma la postura de que la "planificación" puede que no exista realmente, al menos a niveles bajos como este, y simplemente parece que planificar cuando se reproducen experiencias relevantes de memoria y la formación inicial en ellas resulta en cambios en la decisión política actual. Hay un artículo clásico de Atari que sostiene que los búferes de repetición *son* una especie de modelo de mundo no paramétrico. Este artículo alcanza un rendimiento máximo "cercano" a algoritmos fuertes libres de modelos, pero con mucha menos experiencia en el mundo real necesaria, porque la mayor parte del trabajo se realiza en planificación. A menudo, los métodos basados en modelos tienen que luchar por alcanzar la paridad con los algoritmos más simples sin modelo, y eso sigue ocurriendo hoy en día con el benchmark de Atari100k. Este es un sistema clásico basado en modelos con un modelo de transición de estado y un modelo de recompensa. El mayor problema con los modelos de transición suele ser que los errores se acumulan rápidamente, por lo que no se pueden predecir muchos pasos en el futuro. Los modelos de transición toman un estado más una acción, y predicen el siguiente estado y la recompensa que resulta de realizar la acción. Uno de los hallazgos clave del artículo fue que intentar aprender un modelo de transición determinista básicamente fracasó. Se podía entrenar un modelo estocástico, pero el rendimiento mejoraba cuando combinaban tanto cálculos deterministas como estocásticos en el modelo. Observar detenidamente los fotogramas de predicción en vídeo en el apéndice H es interesante: una vez que el modelo de transición GRU determinista perdía el gráfico en un fotograma, todo lo que venía después permanecía roto, mientras que el modelo estocástico podía pasar a algo sin sentido en un fotograma, pero luego volver a algo sensato. No lo habría adivinado. Su modelo combinado completo ofrecía predicciones atractivas en todo momento. No existe una red de políticas o valores como en el RL sin modelo. Las acciones se seleccionan probando una secuencia de ellas usando las funciones de transición y recompensa modeladas, y se realiza la acción que ha dado los mejores resultados. Se evalúan miles de secuencias de acciones por cada acción seleccionada, pero como operan sobre vectores latentes compactos, esto es relativamente eficiente. El Método de Entropía Cruzada (CEM) se utiliza para planificar múltiples pasos adelante con los modelos de transición. Esto debe ser heurístico para espacios de acción continuos o para más de unos pocos pasos modelados en el futuro. La entrada a la red de estados es una observación RGB de 64x64 (cuantizada a 5 bits como GLOW; No entiendo por qué es necesario). Durante el entrenamiento, tienen un modelo de observación que intenta retroceder de un estado a una observación de píxeles. Esto generalmente es imposible de hacer perfectamente cuando el estado es menor que la imagen, pero intentarlo proporciona una señal de retroalimentación rica sobre qué poner en el estado. Esto no se utiliza para ninguna parte del proceso de decisión de acción, es simplemente una ayuda para entrenar. Acción de repetición de 2 a 8, dependiendo de la tarea. El sobrepaso latente como regularizador en el espacio latente que fomenta predicciones iteradas de un y varios pasos para que coincidan.