Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
14 #PaperADay
2022: MASTERIZANDO ATARI CON MODELOS DE MUNDOS DISCRETOS
(Soñador V2)
DreamerV1 estaba principalmente dirigido a tareas de control continuo, pero también demostraba la forma básica de jugar a juegos de Atari y tareas de DMLab. DreamerV2 mejoró el modelo para lograr un rendimiento de última generación en la suite Atari de 55 juegos, y también resolvió la difícil tarea de control continuo humanoide.
Este es muy un trabajo de ingeniería, ¡y estoy aquí para ello! En el apéndice C resumen los cambios que llevaron a una mejora en el rendimiento y también (¡muy raro en los artículos!) una lista de cosas que intentaron y que no funcionaron. Los algoritmos se muestran en código real con nombres en lugar de letras griegas.
Cabe destacar que solo usan imágenes en escala de grises 64x64 como entrada, y esas fueron reescaladas desde la resolución común de 84x84 usada por DQN, así que ni siquiera es una imagen perfecta de 64x64 desde la fuente. Son entradas muy borrosas para tan buenas puntuaciones. Tengo curiosidad por saber si usar imágenes 128x128xRGB con una capa de conversión adicional mejoraría el rendimiento, o si el detalle extra dificultaría el entrenamiento del modelo mundial.
Su mayor cambio fue reemplazar los latentes gaussianos al estilo VAE, que eran solo 32 pares media/var, por variables categóricas: 32 variables de 32 categorías. No tienen una teoría concluyente sobre por qué esto es mucho mejor, pero ofrecen varias teorías. Habría sido interesante comparar más gaussianas con las salidas categóricas más grandes.
El otro gran cambio algorítmico fue el "balanceo KL", es decir, usar una tasa de aprendizaje diferente para los pesos a priori y a posterior, de modo que el predictor entrena más rápido que la representación. La optimización de la articulación aparentemente era problemática para V1.
DreamerV1 tuvo dificultades con la exploración y aún así tenía una acción epsilon-aleatoria además de la política de acción estocástica. El modelo mejorado de regularización y dinámica de V2 les permite eliminar la aleatoriedad extra y depender únicamente de la política.
Sí que hacen cambios sustanciales en la configuración de pérdida y entrenamiento de KL para las tareas de control continuo frente a las de control discreto de Atari.
También escalaron los modelos y usaron activación ELU en todas partes.
Su protocolo de evaluación en Atari es bueno: espacio completo de acciones con acciones fijadas activadas. Las puntuaciones son lo suficientemente altas como para recomendar una nueva métrica: "media de récord recortado" – normalizar al récord mundial humano, recortar si está por encima de ese número, y luego tomar la media de todos los juegos. Los históricos resultados de Atari RL se han comparado con puntuaciones "humanas", que originalmente eran personas al azar y luego un jugador profesional, pero para agentes poderosos en el régimen de 200 millones de frames, esta métrica recortada tiene mérito.
Durante el entrenamiento se imaginaron más de 200 millones de fotogramas en entornos reales, o 50 millones de selecciones de acción con action_repeat 4.468 mil millones de estados latentes, para casi 10 veces la experiencia que habría tenido un agente sin modelo.
La experiencia en el entorno real se entrena en lotes de 50 secuencias de 50 pasos cada una. Las secuencias están restringidas a no cruzar los límites de los episodios.
Al entrenar las funciones de política y valor, se despliegan secuencias imaginarias durante 15 pasos.
Los valores están entrenados en MSE, no categóricos. Se utiliza una red objetivo de valor tradicional, que se actualiza cada 100 pasos de gradiente.
Populares
Ranking
Favoritas
