Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 14
2022: DOMINANDO ATARI CON MODELOS MUNDIALES DISCRETOS
(DreamerV2)
DreamerV1 estaba principalmente dirigido a tareas de control continuo, pero también demostró un juego básico de juegos de Atari y tareas de DMLab. DreamerV2 mejoró el modelo para lograr un rendimiento de vanguardia en el conjunto de 55 juegos de Atari, y también resolvió la tarea de control continuo más difícil de caminar humanoide.
¡Este es un artículo muy técnico, y estoy aquí por ello! En el apéndice C resumen los cambios que llevaron a una mejora en el rendimiento, y también (muy raro en los artículos) una lista de cosas que intentaron y que no funcionaron. Los algoritmos se muestran en código real con nombres en lugar de letras griegas.
Es notable que solo están utilizando imágenes en escala de grises de 64x64 como entrada, y estas fueron reducidas de la resolución común de 84x84 utilizada por DQN, por lo que ni siquiera es una imagen perfecta de 64x64 de la fuente. Esas son entradas muy borrosas para obtener puntuaciones tan buenas. Tengo curiosidad por saber si usar imágenes de 128x128xRGB con una capa convolucional extra mejoraría el rendimiento, o si el detalle adicional dificultaría el entrenamiento del modelo mundial.
Su mayor cambio fue reemplazar los latentes gaussianos estilo VAE, que eran solo 32 pares de media/var, con variables categóricas: 32 variables de 32 categorías. No tienen una teoría concluyente de por qué esto es mucho mejor, pero ofrecen varias teorías. Hubiera sido interesante comparar más gaussianas contra las salidas categóricas más grandes.
El otro gran cambio algorítmico fue el "balanceo KL", o usar una tasa de aprendizaje diferente para los pesos previos y posteriores, de modo que el predictor entrene más rápido que la representación. La optimización conjunta fue aparentemente problemática para V1.
DreamerV1 luchó con la exploración, y aún tenía una acción aleatoria epsilon además de la política de acción estocástica. La mejorada regularización y modelo de dinámicas de V2 les permite eliminar la aleatoriedad adicional y confiar únicamente en la política.
Hacen algunos cambios sustanciales en la pérdida KL y la configuración de entrenamiento para las tareas de control continuo frente a las de control discreto de Atari.
También escalaron los modelos y utilizaron activación ELU en todas partes.
Su protocolo de evaluación de Atari es bueno: espacio de acción completo con acciones pegajosas habilitadas. Las puntuaciones son lo suficientemente altas como para que recomienden una nueva métrica: puntuaciones de "media de récord recortada" – normalizar al récord mundial humano, recortando si está por encima de eso, y luego tomando la media de todos los juegos. Los resultados históricos de RL de Atari se han comparado con puntuaciones "humanas", que originalmente eran algunas personas al azar, luego eventualmente un jugador profesional, pero para agentes poderosos en el régimen de 200M de frames, esta métrica de récord recortado tiene mérito.
Durante el entrenamiento de más de 200 millones de frames de entorno real, o 50 millones de selecciones de acción con action_repeat 4, se imaginaron 468 mil millones de estados latentes, por casi 10 veces la experiencia que un agente sin modelo habría visto.
La experiencia del entorno real se entrena en lotes de 50 secuencias de 50 pasos cada una. Las secuencias están restringidas a no cruzar los límites de los episodios.
Al entrenar las funciones de política y valor, se despliegan secuencias imaginarias durante 15 pasos.
...
Parte superior
Clasificación
Favoritos
