#PaperADay 15 2024: Dominando Diversos Dominios a través de Modelos del Mundo (DreamerV3) Aplica el último modelo Dreamer a más de 150 tareas diversas, obteniendo puntuaciones de vanguardia en muchas de ellas, pero notablemente, lo aplica a la minería de diamantes en Minecraft, un desafío sustancialmente más difícil que la mayoría de las tareas de RL. La prensa informó esto como “la IA resuelve Minecraft”, lo cual es engañoso. Después de 30 millones de pasos en el entorno (20 hz) (17 días sin parar) minó un diamante. A diferencia de los juegos de Atari, que se juegan con los mismos píxeles y controles que un humano utiliza, esta es una interfaz modificada con el inventario y las estadísticas presentadas directamente al modelo, y un espacio de acción categórico: sin navegar por el inventario y las pantallas de elaboración. La minería tuvo que ser modificada para romper instantáneamente en lugar de mantener el botón de minería durante varios segundos, porque Dreamer utiliza políticas de acción estocásticas, que son casi incapaces de mantener un botón presionado durante cientos de fotogramas seguidos. De manera similar, la acción de salto requería múltiples fotogramas de mantenimiento, por lo que se hizo instantánea. Aún así, fue la primera vez que un agente de RL había llegado tan lejos sin haber utilizado aprendizaje por imitación de jugadores humanos, y se hicieron mejoras significativas en todos los otros puntos de referencia también. Las mejoras fueron en gran medida trabajos de ingeniería, en lugar de arquitecturas completamente diferentes. Me perdí la sección de “cosas que intentamos que no funcionaron” de V2. Con los cambios, pueden escalar el modelo de manera rentable de 12M a 400M de parámetros, y la relación de repetición de 1 a 64 veces la tasa del entorno. La terminología del documento ahora está más cerca de otros documentos de RL: “Predicción continua” en lugar de “predicción de descuento” y usando Pi para redes de políticas. Los diagramas han mejorado. Con los modelos entrenados conjuntamente, hay una tensión entre el modelo de representación que quiere degenerar para facilitar la predicción y ser útil para predecir los estados siguientes. Uno de los trucos que utilizan son los “bits libres”, recortando las pérdidas cuando están por debajo de un cierto nivel para que no intenten llegar a cero, permitiendo que la fuerza opuesta progrese sin oposición. Para las distribuciones categóricas utilizan un 1% de suavizado de etiquetas en las distribuciones categóricas para evitar picos en la pérdida KL. Llaman a esto “unimix” para mezclar una distribución uniforme sobre la distribución existente. Esto es no estándar (en comparación con el suavizado de etiquetas), pero posiblemente mejor terminología. Utilizan un valor categórico de dos calientes en lugar de regresión MSE para el crítico, pero a diferencia de la mayoría de las otras implementaciones, utilizan bins espaciados exponencialmente en lugar de espaciados linealmente para poder cubrir varios órdenes de magnitud. Definen funciones symlog() / symexp() para permitir que las redes manejen valores muy variados en rangos tanto positivos como negativos. Se informa que funciona mejor que la transformación no lineal similar utilizada en MuZero y Muesli. Esto aparentemente requirió algo de cuidado: “Para calcular la predicción esperada de la distribución softmax bajo bins que abarcan muchos órdenes de magnitud, el orden de la suma importa y los bins positivos y negativos deben sumarse por separado, de bins pequeños a grandes, y luego añadirse.” La capa final de los modelos de recompensa y crítico se inicializa en cero en lugar de inicializarse aleatoriamente para evitar valores espurios potencialmente grandes al comienzo del entrenamiento. El modelo objetivo para la función de valor es ahora un EMA en lugar de una copia periódica. ...