DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

#PaperADay 12 2019: Aprendiendo Dinámicas Latentes para la Planificación a partir de Píxeles (PlaNet) Este fue el precursor de la serie de agentes / documentos de RL Dreamer 1/2/3/4, que voy a leer en secuencia. La planificación es común en tareas con dinámicas de transición y recompensa completamente especificadas, como los juegos de mesa, pero es mucho más desafiante cuando tienes que aprender las “reglas del juego” al mismo tiempo que intentas mejorar tu rendimiento, especialmente cuando intentas hacerlo a partir de píxeles en bruto en lugar de características de estado perfectamente observadas. A veces, defiendo semi-bromeando la posición de que “la planificación” podría no ser realmente una cosa, al menos en niveles bajos como este, y simplemente se siente como planificación cuando se llaman experiencias relevantes de la memoria y el entrenamiento bootstrap sobre ellas resulta en cambios en la decisión de política actual. Hay un documento clásico de Atari que argumenta que los buffers de repetición *son* una especie de modelo de mundo no paramétrico. Este documento alcanza un rendimiento máximo “cercano” a algoritmos fuertes sin modelo, pero con mucha menos experiencia del mundo real necesaria, porque la mayor parte del trabajo ocurre en la planificación. A menudo, los métodos basados en modelos tienen que luchar para alcanzar la paridad con los algoritmos más simples sin modelo, y eso sigue ocurriendo con el benchmark Atari100k hoy en día. Este es un sistema clásico basado en modelos con un modelo de transición de estado y recompensa. El mayor problema con los modelos de transición suele ser que los errores se acumulan rápidamente, por lo que no puedes predecir muchos pasos en el futuro. Los modelos de transición toman un estado más una acción, y predicen el siguiente estado y la recompensa que resulta de tomar la acción. Uno de los hallazgos clave del documento fue que intentar aprender un modelo de transición determinista fracasó básicamente. Se podría entrenar un modelo estocástico, pero el rendimiento mejoró cuando combinaron cálculos deterministas y estocásticos en el modelo. Mirar de cerca los cuadros de predicción de video en el apéndice H es interesante: una vez que el modelo de transición GRU determinista perdió el hilo en un cuadro, todo lo que vino después se mantuvo roto, mientras que el modelo estocástico podía transitar a algo sin sentido en un cuadro, pero luego volver a algo sensato después. No lo habría adivinado. Su modelo combinado completo dio buenas predicciones a lo largo. No hay red de política o de valor como en RL sin modelo. Las acciones se seleccionan probando una secuencia de ellas utilizando las funciones de transición y recompensa modeladas, y se toma la acción que llevó a los mejores resultados. Miles de secuencias de acciones se evalúan para cada acción seleccionada, pero como operan en vectores latentes compactos, esto es relativamente eficiente. Se utiliza el Método de Entropía Cruzada (CEM) para planificar múltiples pasos adelante con los modelos de transición. Esto tiene que ser heurístico para espacios de acción continuos o cualquier cosa más allá de unos pocos pasos modelados en el futuro. La entrada a la red de estado es una observación RGB de 64x64 (cuantizada a 5 bits como GLOW; no tengo claro por qué es necesario). Durante el entrenamiento, tienen un modelo de observación que intenta retroceder de un estado a una observación de píxel. Esto es generalmente imposible de hacer perfectamente cuando el estado es más pequeño que la imagen, pero intentarlo proporciona una rica señal de retroalimentación sobre qué poner en el estado. Esto no se utiliza para ninguna parte del proceso de decisión de acción, es solo una ayuda para el entrenamiento. Repetición de acción de 2 a 8, dependiendo de la tarea. Sobrepaso latente como regularizador en el espacio latente que fomenta que las predicciones iteradas de un paso y múltiples pasos coincidan.

Parte superior

Clasificación

Favoritos